id:matznaga さんのところで起こっている問題について

id:matznaga:20041012#p2 で書かれていることについて。
まず、私の印象だが、spam が巧妙になって POPFile をすり抜けるようになってきたというような情報は、本家フォーラムも含めて見たことがない。また、誤判定が極端に増えたという事例も聞いたことがない。私の環境ではあまり多くの spam を受信していないため参考にはならないと思うが、ここしばらくの分類精度は約 99.5% で、特に精度は落ちていない。
分類精度がunclassified が多いというのはいくつか考えられる。例えば、bayes_unclassified_weight が大きな値に設定されている場合など。また、本文がないようなメールは、どれかひとつのバケツに含まれるとはっきりわかるだけの材料が少ないため、unclassified となる可能性が高い。
しかし、id:matznaga:20041010#p1 で書かれているように、spam らしい単語が spam でないバケツで多く見つかるというところから考えると、コーパスの内容がおかしくなっていると考えるのが自然なような気がする。そう考えると、分類精度が落ちているのもわかるし、unclassified が増えるのもある程度理解できる。このあたりは、spam なのに spam と判定されたメールや、unclassified となったメールのシングルメッセージビューを開いて、単語の得点を確認してみるといいかもしれない。どの単語がそのバケツに分類する要因になったかが確認できる(0.22.0 以降では、「分類決定図」が表示され、よりわかりやすくなっている)。


コーパスが変になっている原因についてはなんとも言えないが、id:matznaga:20040819#p1、id:matznaga:20040823#p1 に書かれている、再分類しようとするとメッセージが見つからない、あるいは分類しようとすると分類されているなどの症状を見ると、メッセージのキャッシュ(history_cache)がおかしくなっているような気がする。以前のバージョンでは、history_cache が破損すると履歴が表示されないなどの問題が起こることがあった。以前はトラブルシューティングのページにその情報が書かれていたが、古いバージョンの情報のため、すでに削除されてしまっている。翻訳したときにメモした内容がまだ残っていたので、履歴のキャッシュに関する問題としてアップしておく。この症状が起こっているのであれば、この解決策を試してみるという手もあるかもしれない。
キャッシュの破損による問題については、本家フォーラムのスレッドバグにも報告されている。バグのページには、0.22.0 で修正されたと書かれているので、根本的にこの問題を解決するためには 0.22.1 にバージョンアップするしかないと考えられる。(これが原因だと確信するだけの材料はないものの、潜在的に問題が起こる可能性はあるわけだからバージョンアップすべきかな)


ここからさらに想像だが、この問題が起こっているときにメッセージを再分類すると、再分類したメッセージとは違うメッセージが再分類されたと認識してしまうのかもしれない(まったく確証はないが、症状からの想像)。そう考えると、spam でないメールを spam と分類してしまったり、その逆をしてしまい、コーパスの内容がおかしくなるかも知れない。そうだとすれば、分類精度が落ちるのもわかる。
もしこの仮定が正しいのだとすれば、コーパスの内容がおかしくなっているわけだから、復旧する方法は最初から学習をやり直すしかないかもしれない。上記のキャッシュがおかしいという症状が起こっているのであればその部分を修正すれば今後の学習は正しくいくかもしれないので、徐々に回復する可能性もある。


とりあえず、キャッシュについて確認してみてから、現状のコーパスをバックアップしておいて、最初からやり直して少し様子をみてみるという感じではないだろうか。
単なる想像でしかないので、効果があるかどうかはわからないが。

当選!

これがあたった。前に書いたつもりだったけど書いてなかったかな。A5504T ユーザ限定のプレゼントキャンペーンがあって、そこで当選したのだ。
しかし、届いたメールがオフィシャルなものなのかすぐにわからなくて、「これが今はやりの(?)フィッシング詐欺?」とか考えてしまった(汗) リンク先のドメインも t-ucs.com という見慣れないものだったし。whois で調べてみると、東芝が所有するドメインのようなので、サイトにアクセスして住所などを登録。
届くのは 11 月中旬ということなので、まだ 1 ヶ月先だけど、届いたらまたレポートする予定。
しかし、A5504T 専用というのはどうなのかなと思う。たぶん、プロファイルが対応していれば使えるのではないかと思うのだけど、最近発表された W21T で使えないなんてことは……ないわな。
対応プロファイルを見ると、GAP、SDAP、HFP とある。HFP = Hands Free Profile はわかるけど、他はなんだろう。調べてみると、GAP = Generic Access Profile、SDAP = Service Discovery Application Profile のようだ。しかし略がわかっても意味が解らない……(汗) 。ま、名前を見る限りではなにかすごいことができるというわけではなさそうだけど。