分類されたバケツに含まれる確率をヘッダに追加

POPFile がメッセージをあるバケツに分類したとき、そのバケツに含まれる確率がどのくらいだったかをヘッダに追加するというパッチを作成してみた。(関連
作る前にはおもしろそうかなと思ったのだけど、これまで試した限りでは、どのメールも 0.999999 以上の確率でそのバケツ、というふうに決められてしまってあまりおもしろい結果は得られていない。たしかにこのところ unclassified になるメールもほとんどないような気もする。これはいいことなのだろうけど、せっかく作ったのにちょっと寂しいかも(汗)。
もう少し様子をみてみないとなんとも言えないと思うけど、考えていたほどには意味はないのかもしれない。
実は、確率をヘッダに追加しなくても、バケツに分類するかしないかをわけるしきい値というのが存在している。POPFile は、すべてのメッセージをどのバケツに分類するかを決めるのではなく、判断が難しいものについては、unclassified という分類にするのだ。これによって、微妙なメッセージを誤って分類してしまうことを防いでいる。
私の環境では、1番可能性の高いバケツと2番目に可能性が高いバケツの確率の比が100倍以上であれば分類し、それ以下ならば unclassified とするように設定してあるので、分類された場合には 99% 以上(正確には99.0099....%か)の確率でそのバケツ、という場合にだけ振り分けられる。
この(100 倍という)値を変更したいと思えば、POPFile UI の「詳細設定」タブで、「bayes_unclassified_weight」の値を変更すればよい(例えば、10000 倍以上でなければ分類しない、というのであれば 10000 とする)。要するに、spam である確率が、非spam である確率よりも 10000 倍高ければ spam に分類、ということができるわけだ。そうすると、その条件を充たしたら即削除……といったことにも使えるのかも知れない。
とはいえ、これまでの傾向から 99.99% 以上の確率で spam だと判別されたとしても、実際にはそれは spam ではないかもしれない。絶対確実、という条件はなかなかないだろうから、結局のところ内容を見ずに削除する、というところまでの判断は難しいのではないかな、と思ったりもするのだけど。