読者です 読者をやめる 読者になる 読者になる

studylog/北の雲

chainer/python/nlp

Mecabのipadic-NEologd辞書の地名について

ipadic-NEologd試してみた。地名でちょっとひっかかるところがあったのでメモ。

都道府県+政令指定都市のパターン

神奈川県横浜市中区 -> 神奈川県 横浜市 中区
北海道札幌市中央区 -> 北海道札幌市 中央区

上は都道府県・政令指定都市・区が全て分離してる
下は当道府県と政令指定都市がくっつき、区だけが分離してる

どちらでもこうでもいいんだけど、こういう風に統一されると嬉しい。

A
神奈川県横浜市中区 -> 神奈川県横浜市 中区
北海道札幌市中央区 -> 北海道札幌市 中央区
B
神奈川県横浜市中区 -> 神奈川県 横浜市中区
北海道札幌市中央区 -> 北海道 札幌市中央区

政令指定都市+大字のパターン

川崎市中原区西加瀬 -> 川崎市中原区西加瀬
福岡市東区箱崎 -> 福岡市 東区箱崎

これもまちまちなパターン
上は市町村から大字まで連続、下は市名だけ分離しちゃってる。



もし地名のパースを正確にやりたい場合は地名だけ自分で辞書を編集するのかな?Mecabの辞書をいじる方法を知らないので調べたい。
あるいは元のipadicであれば、
東京 都 新宿 区
となって都と区は「名詞-接尾語-地域」になるので正確にパースしやすい。

その一方で新語に関しては比較にならないほどipadic-NEologdの方が良いはずなので悩ましい。
それから地名関係でもこういうパターンに関してはipadic-NEologdの方が明らかに良い。

つくばの新都心、研究学園にて研究していたあの日々。

ipadic-NEologdだと 研究学園 を地名と判断してくれるが元ipaだと研究 学園に分類されてそれぞれ一般名詞と認識されてしまってる。

もう少し掘ってみた。

東京都戸山

これは住所としてはおかしくて、本当は東京都[新宿区]戸山なんだけど、Neologdの方は分離しないで一括地名と判断してる。これを嬉しいと思うかどうかは使い方次第。それで、

名詞,固有名詞,地域,一般,*,*,東京都新宿区戸山,トウキョウトトヤマ,トウキョウトトヤマ

という結果が返って来る。東京都戸山っていうのは東京都新宿区戸山のことだよ、と教えてくれている。東京都笹塚だったら東京都渋谷区笹塚。これは嬉しいかも。