実験

Word2Vecを利用して得られた単語の分散表現から、コサイン類似度を用いて対義語の抽出を行う。コサイン類似度は、ベクトルa,bに対して

$\displaystyle cos(a,b) = \frac{a\cdot b}{\Vert a\Vert \Vert b\Vert}$ (3)

で得られる。Word2Vecは分布仮説に従い学習を行うため、似た文脈で出現する対義語との類似度は高くなる。この性質を利用し、Word2Vecの学習に利用したコーパスから、お互いに最も高い類似性を示すペアを抽出し、それらのペアが対義関係にあるかを調査する。具体的な実験手順は、以下の通りである。

  1. 用意した日本語と英語の単文のデータ163188文[4]から、10回以上学習データに出現する単語を抽出する。

  2. 各名詞の最も類似度の高い名詞を調べる。

  3. お互いに最も類似度を高く示したペアを抽出する。

  4. 抽出した単語のペアに関して、人手で対義語かどうか調査する。

調査する対象として10回以上出現した単語に限定した理由は、出現回数の少ない単語は分散表現をうまく学習できていないと考えられるからである。
3.1節では実験条件について説明し、3.2節では、実験結果を示す。



Subsections