縦書き spam

海外の spam では、単語の中にスペースやピリオドを紛れ込ませたり、A の代わりに 4 と書いたり、単語の中にダミーのタグを混ぜたりといったようないろんなテクニックが使われているけれど、日本語のではあまりそういうのを見たことがない。
最近届いた日本語 spam を見てみると、やたらと直接的なものばかりだ。工夫が見られるのは、友人からのメールや、アドレス間違いなどを装って送られてくるメールくらいで、これもテクニカルなものではない。内容的にもかなり偏っているようで、ほとんどが出会い系サイトに誘い出そうとするもので、あとは、ソフトが安く買えるとか、そのくらいかなぁ。一時期やたらと届いた、在宅ワークとか 5000 円で……シリーズは最近見ていないような気がする。
テクニカルな日本語 spam があまりあらわれていないのは日本では spam フィルタがあまり普及していないからなのかもしれないが、spam フィルタの開発にたずさわっているということもあり、spam フィルタを欺こうとする日本語独自のテクニックがあらわれたりしていないかと、時々内容を確認したり、どんなことができるかを考えてみたりしている。その中で、以前考えたのが、「縦書き spam」だ。
ベイズ理論を使ったフィルタリングソフトでは、メールの中に書かれている言葉をもとにメールを分類する。それは、メールが横書きで書かれていることが前提だ。日本語では、文字を横に書くのではなく、縦に書くことができるから、本文を縦書きにして送れば、横方向のつながりでしか処理できないフィルタを欺くことができるのではないか、ということだ。これを防ぐのはなかなか難しい。人間なら、横に読みかけて意味が解らなければ縦で読んでみるというように頭が働くかもしれないが、同じことをコンピュータにやらせようと思うと、途中まで読んでみて、辞書にない言葉ばかりなら縦に……というようなものがまず思い浮かぶが、こんな単純な方法では、最初のところに無難な文章を並べておいて、途中からおもむろに、「以下は縦書きとしてお読みください」とされれば手も足も出ない。横書きで作っておいた文章を縦書きに変換するのは、ツールがあれば簡単にできるだろうし、送る側はたいして面倒でもない。問題があるとすれば、等幅フォントで表示してもらわないと読みにくいことくらいだ。それから、縦書きではあらわしようがない、URL の問題もある(いや、これも縦書きで無理矢理書くこともできるが、わざわざそれを打ち込ませるというのでは、反応してもらうチャンスを逃すことになるだろう)。実際のところどのくらい効果があるのかわからないが(試しに、ひとつのメールについて、本文をすべて縦書きに変換したものと比較してみたところ、spam という判定自体は変わらなかったが、spam でない確率が 10-44 くらいから 10-11 くらいにあがった。やはり効果はある)、テクニックとしてはおもしろいかもしれない。
実は、このネタは、対応策を思いついたら書こうと思っていたのだけど、考えているうちに、英語圏でも同じことを考える人があらわれてしまった。Spam Kings Blog の、Clever spammer tricks というエントリに、その spam が書かれている。「下向きに読め」と書かれた下に、縦書きになった英単語が並ぶ。他の文章も無難な感じになっており、URL も、「http://」を省略して、さらに間にスペースを挟んだ上で「スペースを取り除いてブラウザにコピーせよ」と注意書きまで加えられている。件名も、「薬を今すぐゲット!」という感じで、まあそれなりに無難だ(?)。これを読んで、アドレスの間のスペースを取り除いてブラウザにコピーして、サイトにアクセスしてバイアグラを買おう、という人がどのくらいいるのか不明だが、フィルタを欺くにはよい方法かもしれない。ちなみに、このメールをうちの POPFile で判定させてみたところ、spam である確率が 89% くらいあったが、unclassified (分類せず)という結果だった。ヘッダ部分がもう少しあれば違う結果かもしれないが、こちらでもやはり縦書きの効果はあるようだ。
上記エントリの最後は、「次は、印刷して鏡に映して読むという方法を書いた spam か?」と結ばれている。日本で次にあらわれるのは、ギャル文字で書かれた spam かもしれない。