本研究で使用するWord2Vecのモデルは、Pythonのオープンソースライブラリであるgensim[5]を利用して作成する。学習データは用意した日本語の単文データ163188文を使用した[4]。この単文データは、主に電子辞書などから得ている。
モデルはskip-gramであり、vector_sizeは1000とし、windowは50として、学習を行った。
また、単語の分散表現がうまく学習されていない可能性があるため、調査する単語は、学習データに10回以上出現した名詞に限って調査した。
Table:
word2vecのパラメータ
モデル |
bector_size |
window_size |
学習データ |
skip-gram |
1000 |
50 |
日本語単文163188文 |