単語ベクトルモデル

2.2.1節の文ベクトルの計算で用いる単語のベクトルには, fastText[10,11]によって学習させたものを使用した. fastTextは隠れ層と出力層からなる2層のニューラルネットワークで,隠れ層が単語の分散表現に相当する.

今回は学習データとして, Wikipediaの全1,061,375記事を使用した.学習データは前処理としてアルファベットとカタカナは全角に,英数字は半角に統一した.学習データの例を表4.3.1に示す.また,単語ベクトルの次元数は300次元とした.


Table 4.3.1: 学習データの例
62#62