続々・分かち書きプログラムの違いによる精度比較

精度グラフ


id:amatubu:20070524 の続きの続き。テストに使ったデータを修正して再挑戦。結果の詳細
結果は、なんと、22,340 通のメールを分類させ、Kakasi 270 通、文字種による分割(simple) 270 通、MeCab 269 通の分類ミス(精度では 98.791%、98.791%、98.796%)。2 万通ものメールを分類してミスの数が 1 通しか変わらないというのは驚いた。KakasiMeCab の結果がほぼ同じというだけならばまだわかるが、文字種による分割でも何ら変わらない。しかもグラフを見ると、一部では文字種による分割の方が精度が良いところもあり、これは十分実用になりそうだ。
また、当然ながらデータを精査したことによって精度が大きく向上した。さらに、途中から精度が下がっていくという謎の現象も解消した。やはりデータを使って検証を行うときはそのデータ自体の精度をまず確認しなければならないようだ。
次回(?)は TOE(間違ったときだけ鍛える)と TA(常に鍛える)の精度比較を予定。TOE は 3 時間くらいで検証できるが、TA となると丸 1 日たっても終わらないので明日までかかりそうなのだ……。