POPFile で分かち書きに MeCab を使う場合の問題の回避策

前回書いた、HTML タグなどが分かち書きされてしまう問題についての回避策を見つけたので、メモ。
辞書の設定ファイル(char.def)において、文字種の定義が行われている部分(CODE(UCS2) TO CATEGORY MAPPING のところ)で、

# ASCII
0x0021..0x002F SYMBOL
0x0030..0x0039 NUMERIC
0x003A..0x0040 SYMBOL
0x0041..0x005A ALPHA
0x005B..0x0060 SYMBOL
0x0061..0x007A ALPHA
0x007B..0x007E SYMBOL

という部分がある。これらのカテゴリをすべて「ALPHA」に統一してしまうことにより、分割されてしまうことを防ぐことができる(もちろん、修正後、辞書を作り直してインストールする必要がある)。これがベストの対策かどうかはわからないが、少しテストしてみた限りでは問題はなさそうだ。
辞書を作り直すのが面倒という方のために、ここに上記修正を施して作った辞書を置いておく(文字コードはデフォルトの EUC_JP )。