next up previous contents
Next: 実験 Up: 実験環境 Previous: MeCab   目次

単語ベクトルモデル

3.2.1節の文ベクトルの計算で用いる単語のベクトルには,fastText[9,10]によって学習させたものを使用した. fastTextは隠れ層と出力層からなる2層のニューラルネットワークで,隠れ層が単語の分散表現に相当する.

今回は学習データとして,Wikipediaの全1,061,375記事(2017年6月1日時点)を使用した. 学習データは前処理としてアルファベットとカタカナは全角に,英数字は半角に統一した. 学習データの例を図4.3に示す. また,単語ベクトルの次元数は300次元とした.

図 4.3: 学習データの例
\begin{figure}
\begin{center}
\begin{screen}
\textless doc id=''5'' url=''h...
...\\
\textless/doc\textgreater
\end{screen}
\end{center}
\end{figure}



2018-03-02