POPFile の鍛え方

POPFile を鍛えるのに、最初から高い精度を期待して、spam や普通のメールをたくさん学習させたりしたという話が多くあるけれど(実際私も最初そうしたのだけど)、実際には、そんな手間をかけなくても、間違えたときだけ学習させていくだけですぐにほとんど正確に分類できるようになる。レアなメールについては、個別に学習させておくといいかもしれないけど、よく届く spam なんかは一度学習させてしまえば、あとで間違って分類される可能性はほとんどない。
逆に、あまりたくさん学習させすぎてしまうと、コーパスが大きくなって処理に時間がかかったり、学習のさせ方によっては振り分け方が偏ってしまう可能性もある。POPFile は、TOE (Training Only on Errors) (間違えたときだけ学習させる)という方針で使うのがベストだと、Glossary/TOE (未翻訳部分なので英語)に書かれている。