POPFileの学習状況

 まずはPOPFileの状況から。メーリングリストを含めた分類精度は99%くらいで安定。しばらくの間、間違えた場合だけ再学習させていたのだけど、どうも普通のメールをspamと判定してしまう傾向があった(特に、導入してから初めてメールをもらった人とか)。最初に学習させたメールの数が、spamと非spamでそれほど変わらなかったせいか、うちのメールアドレスが宛先になっているだけで50%以上の確率でspamとなってしまっていたのだ。
 spamが非spamと認識されてしまうのももちろん問題だが、その逆は致命的な問題だ。これはまずいということで、非spamと認識されたメールについては判定が正しいかどうかに関わらず再学習させるようにしてみた。その結果、今までのところ非spamspamと誤認識するということは起こっていない。
 最初の学習期間をどのくらいにするかの判断は難しいところだけど、最初は普通のメールを多めに学習させた方がいいようだ。