単語ベクトルモデル

2.2.1節の文ベクトルの計算で用いる単語のベクトルには, fastText[10,11]によって学習させたものを使用した. fastTextは隠れ層と出力層からなる2層のニューラルネットワークで，隠れ層が単語の分散表現に相当する.

今回は学習データとして, Wikipediaの全1,061,375記事を使用した．学習データは前処理としてアルファベットとカタカナは全角に,英数字は半角に統一した．学習データの例を表4.3.1に示す．また，単語ベクトルの次元数は300次元とした．

**Table 4.3.1:** 学習データの例
62#62