0.23 に向けて日本語関係で考えていること

今回のバージョンでは見送ったが、次のメジャーバージョンアップには実現したいと思っていること。

  • Kakasi がなくても動くようにする

id:amatubu:20070524#p1 で書いたように、文字種による分割というシンプルな分かち書きでも高い精度が実現できることがわかったので、この機能を組み込みたい。MeCab については保留。

  • UI の履歴タブでの細かい文字化けを修正する

履歴の表示において、件名や宛先などが長い場合途中までが表示されるようになっているが、EUC-JP の 1 バイト目と 2 バイト目の間で切れてしまって文字化けしてしまっていることがある。細かいが、修正したい(手元では修正済み)。
CP932 への対応とか、マイナーなバグへの対応については微妙。あまり効果がなさそうなのと、副作用もありそうなので。
最近 Word 文書などの添付ファイルがついたメールを学習させたときに半角カタカナの「ハハハハ」というような単語が大量に登録されることを発見して何か対処した方がよいかどうか考え中。これもマイナーな問題と言えばマイナーな問題だけれど。本格的にやろうと思ったら Word 文書の中身を調べられるように……という話にもなりそうだけど、実際のところ Word 文書を添付した spam とかがあらわれない限りはあまり効果はなさそうだし。処理速度も含めて考えれば今の形で十分なような気もしてしまって。