読者です 読者をやめる 読者になる 読者になる

studylog/北の雲

chainer/python/nlp

構築済みの日本語のWordEmbeddingベクトルがあればいいのに

と常々思っていたのだけど、探しても見つからなかった。
自分で作るのは結構時間がかかるし、その道の専門家の人がきちんと作ったものじゃないと精度が低いだろうし…。

なんて思ってたらこんなのが。

word-vector-web-api/README.ja.md at master · overlast/word-vector-web-api · GitHub
word-vector-web-api とは

word2vec や GloVe などで構築済みな単語ベクトルのモデルを使った結果を HTTP 経由で JSON/JSONP 形式で取得することができる Web API です。

word-vector-web-api を利用することで、様々なライブラリや資源を組み合わせて同様の Web API を構築するために必要な作業コストを軽減できます。

mecab-ipadic-neologdの人がもうすぐ出すらしい。

WebAPI自体はともかく「構築済みな単語ベクトルのモデルを使った結果」はありがたい。
これだけ分離して使ったりできるのかな?
作者の方のtwitterを見てるとwikipediaの記事で作ってるっぽい。
もし単語ベクトルのところだけ差し替えたりできるのなら、もっと大規模なコーパスから作った自作の単語ベクトルを他の人が公開、なんていい流れになりそう。

自分がwikipediaの記事だけで作った時はちょいちょい変な単語ベクトルが散見された。これは前処理が適当なせいもあるだろうけど、単純に文が足りないのもある。また、wikipediaだけだとお固い話題しか出てこないのでブログとかtwitterの文をもっと入れて作ってみたいなあと。でもクロールするの大変だし、他の人が作ったのに乗っかりたいという願望を常々持ってたので、このword-vector-web-apiには期待。