概要

自然言語処理において、単語の意味や関連性を把握することは重要であり、それらを識別するために用いられる同義語、対義語などの辞書は多くが人手で作成されており、それらの作成にはコストがかかる。そのため、コーパスから自動的に単語の関連性を抽出することは非常に有意義である。
本研究では、単語の分散表現から、対義語候補となるペアを抽出し、それらが対義語であるかを調査した。単語の分散表現はWord2Vecを用いて学習を行った。Word2Vecは分布仮説に基づき学習を行う。そのため、似た文脈で出現する対義語が似たベクトルを得られることが分かっている。この性質を利用し、分散表現からコサイン類似度を利用して、お互いに最も類似度を高く示すペアを湧出し、対義語であるかを調べた。
結果は、抽出したペア1008組の中の60組が対義語の関係にあり、抽出精度は5.9%という結果になった。対義語でなかったペアの多くは、対義語を持たないと考えられる単語どうしのペアであった。また、対義語を持ちながらも、失敗してしまったペアに関しては、周辺語彙が多く共通する別の単語が存在し、対義関係にある単語とうまく類似度が高くなるように学習が出来ていなかった。
考察として、出現頻度の下限を上昇させた場合と、各ペアの類似度での足切りした結果の抽出率についても調査した。結果、出現頻度は上げれば上げるほど関係のないペアを除外することができた。しかし、抽出率は50回まで上昇させても15%程度であった。
類似度では、1008組の平均値と成功例の平均値とで足切りを試みた。結果はどちらも7%ほどであり、出現頻度と同じ傾向を示した。