3.2.1節の文ベクトルの計算で用いる単語のベクトルには,fastText[9,10]によって学習させたものを使用した. fastTextは隠れ層と出力層からなる2層のニューラルネットワークで,隠れ層が単語の分散表現に相当する.
今回は学習データとして,Wikipediaの全1,061,375記事(2017年6月1日時点)を使用した. 学習データは前処理としてアルファベットとカタカナは全角に,英数字は半角に統一した. 学習データの例を図4.3に示す. また,単語ベクトルの次元数は300次元とした.