MeCab を使うパッチの続き

少しずつ改良(?)を加える。
まず、文字種ごとに分割する処理が、POPFileWindows 版でインストールされるモジュールだけでは動作しない(utf-8 関係のモジュールが必要なようだ)ことがわかったので、euc-jp のまま分割するようにしてみた。すると、utf-8 経由の場合よりも 2.6 倍(Text::Kakasi に比べると 14 倍くらい)くらい速くなったので、これでいこうと思う。
また、分かち書きに何を利用するかを変更するのにソースをいじらなければいけないというのはいかにもスマートじゃないので、Bayes.pm にも手を入れて詳細設定タブから変更できるようにしてみた。これで次のバージョンにマージする最低限の準備はできたかな。
何かミスがないかどうか、もう少し動作テストしてから公開予定。
速度と精度の比較はそのあとで。