続・分かち書きプログラムの違いによる精度比較

id:amatubu:20070524 で書いた精度比較の続き。
あるところをピークに精度が下がってしまっていることがやはり気になり、テストに使ったデータを調べてみたところ、元のデータ自体に分類が誤っているものが多数見つかった。POPFileアーカイブ機能(受信したメール本体をアーカイブしておく機能)を使ってためておいたメールをテストデータとして使用したのだが、バケツを途中で増やした際にそれまでの受信したメールの分類を変更していなかったため、現在分類すべきバケツとは異なるバケツに部類されたままになっていたメールがあった。あるいは、分類ミスをしていたのに(私が)見逃してしまっていたものや、分類分けの判断にぶれがあったものなど。20,000 通あまりのメールのうち、200 通〜 300 通くらいは分類が正しくなかった。これをひとつひとつ確認して修正し、再度テストを行った。
テストしているうちにまだ分類ミスが見つかり、なかなか思うようにすすまない。1 回のテスト(分かち書きのプログラム 1 つあたり)で 3 時間くらいかかるので、何度もやり直しているとそれだけで膨大な時間がかかってしまう。テストしては修正、テストしては修正でなんとかほぼ正しそうなデータを作ることができた。
テストは何度も修正しながらだったので最終的な比較はまだできないものの、現在の最新の状態では、 22,340 通のメール(前回より数が減ったのは、本来今回のテストに使用したバケツ以外のバケツに分類されるべきメールが混じっていたので、混乱を避けるために取り除いたため)を分類させ、Kakasi 249 通、MeCab 269 通、simple 259 通の分類ミスであった(精度ではそれぞれ 98.89%、98.84%、98.80%)。精度はすべて 1% 以上あがり、差は縮まった。最も成績のよかった Kakasi と、最も悪かった MeCab の差はたった 0.09%。これはもう誤差だろう。しかも、形態素解析などいっさいしていない文字種による分割と Kakasi の差は 0.05% である。これは「もうこれで十分ではないか」と思える。
これは私の環境でのテスト結果であって、一般的にそうかどうかはわからない(比較的英文のメールが多いことも、差を縮める要因になっているかも知れないし)が、十分有用であることは確実だと思う。
詳細については、再度最終的なデータでテストを行い、後日書く予定(なんせ 3 種類のプログラムでテストすると 9 時間もかかるのだ……(汗))。