7.1節で単語対が不正解となった原因としては主に2つ考えられる.1つは,同単語の表記方法の違いである.変換テーブルにおいて漢字とその読み仮名は別単語として扱われるため,同じ英語訳を持つ別単語として抽出されたと考えられる.2つ目は,対義語抽出において名詞連続複合語の関係にあたる単語対の出現である.Word2Vecでは類似する文脈に出現する単語ほど類似度が高くなるが,
連続する名詞は文脈に依存せず同一文で出現できるため,純粋な文脈の類似度よりも高い類似度を示すと考えられる.
Table:
不正解の原因
|
読み |
複合語 |
その他 |
|
|
同義語 |
11 |
0 |
2 |
|
|
類義語 |
7 |
1 |
9 |
|
|
対義語 |
2 |
8 |
13 |
|
|
また,表7.1.1より同義語類義語に対して対義語の正解数が少ないことが分かる.これは,対義語は単語ごとに原則一対なのに対し,同義語類義語は複数対存在するため正解となる単語が多いことが原因と考えられる.