Mecabのipadic-NEologd辞書の地名について
ipadic-NEologd試してみた。地名でちょっとひっかかるところがあったのでメモ。
都道府県+政令指定都市のパターン
上は都道府県・政令指定都市・区が全て分離してる
下は当道府県と政令指定都市がくっつき、区だけが分離してる
どちらでもこうでもいいんだけど、こういう風に統一されると嬉しい。
A
神奈川県横浜市中区 -> 神奈川県横浜市 中区
北海道札幌市中央区 -> 北海道札幌市 中央区
B
神奈川県横浜市中区 -> 神奈川県 横浜市中区
北海道札幌市中央区 -> 北海道 札幌市中央区
政令指定都市+大字のパターン
これもまちまちなパターン
上は市町村から大字まで連続、下は市名だけ分離しちゃってる。
もし地名のパースを正確にやりたい場合は地名だけ自分で辞書を編集するのかな?Mecabの辞書をいじる方法を知らないので調べたい。
あるいは元のipadicであれば、
東京 都 新宿 区
となって都と区は「名詞-接尾語-地域」になるので正確にパースしやすい。
その一方で新語に関しては比較にならないほどipadic-NEologdの方が良いはずなので悩ましい。
それから地名関係でもこういうパターンに関してはipadic-NEologdの方が明らかに良い。
つくばの新都心、研究学園にて研究していたあの日々。
ipadic-NEologdだと 研究学園 を地名と判断してくれるが元ipaだと研究 学園に分類されてそれぞれ一般名詞と認識されてしまってる。
もう少し掘ってみた。
東京都戸山
これは住所としてはおかしくて、本当は東京都[新宿区]戸山なんだけど、Neologdの方は分離しないで一括地名と判断してる。これを嬉しいと思うかどうかは使い方次第。それで、
名詞,固有名詞,地域,一般,*,*,東京都新宿区戸山,トウキョウトトヤマ,トウキョウトトヤマ
という結果が返って来る。東京都戸山っていうのは東京都新宿区戸山のことだよ、と教えてくれている。東京都笹塚だったら東京都渋谷区笹塚。これは嬉しいかも。