POPFile で分かち書きに MeCab を使う場合の問題

少し前から Windows 環境で MeCab を使っての分かち書きをテストしていたのだけれど、今日になって気になる問題を発見。どうも、HTML タグが含まれていると、その部分も分かち書き(?)されてしまうのだ。例えば、「」という文字列が「< html >」と分割されてしまう。こうなるとタグの分析がうまくいかず、分析結果に影響が出てしまう。Kakasi ではかな漢字以外の部分は特に何も触らないようで、問題はない。MeCab でも HTML タグなどの部分に変更を加えないような設定が可能なのだろうか? 調べてみなくては。
この過程で、メールの解析処理に一部問題があることを発見。悪用される恐れもあるので、早めに対応が必要かもしれない。

今日のあまつぶむら

きんのじょうろをゲット。気分だけごーじゃす?
おかげさまで、特産のモモ以外に、ナシとオレンジとヤシが収穫できるようになった。家計も安定。
パッピールームの点数もあがってきた。目指せ40000点。
化石発掘は残すところあと 1 種類。あとひとつになってからが長い……。