FastText の学習環境

文のベクトルの計算で用いる単語のベクトルは,FastText[6]の学習によって求める. FastTextは隠れ層と出力層からなる2層のニューラルネットワークで,隠れ層が単語の分散表現に相当する. FastText の学習データとして,Wikipediaの全1,061,375記事を用いた. なお学習データは図4.1のように,日本語は全角,アルファベットと数字は半角に統一し,MeCab で形態素単位に分かち書きしている. FastText の学習で用いたパラメータは,学習モデルをskip-gram,ベクトルの次元数を300とした.他のパラメータ値はデフォルト値を用いた.


表: 学習データの詳細
\scalebox{1.0}{
\begin{tabular}{\vert c\vert c\vert} \hline
記事数 & 行数 \\ \hline
1,061,375 & 22,794,659 \\ \hline
\end{tabular}
}


図: 学習データの例
\begin{figure}
\begin{center}
\begin{screen}
\textless doc id=''5'' url=''ht...
...\\
\textless/doc\textgreater
\end{screen}
\end{center}
\end{figure}