実験条件

本研究で使用するWord2Vecのモデルは、Pythonのオープンソースライブラリであるgensim[5]を利用して作成する。学習データは用意した日本語の単文データ163188文を使用した[4]。この単文データは、主に電子辞書などから得ている。
モデルはskip-gramであり、vector_sizeは1000とし、windowは50として、学習を行った。
また、単語の分散表現がうまく学習されていない可能性があるため、調査する単語は、学習データに10回以上出現した名詞に限って調査した。


Table: word2vecのパラメータ
モデル bector_size window_size 学習データ
skip-gram 1000 50 日本語単文163188文