はじめに

自然言語処理の分野において、単語の意味やその関連性は非常に重要である。同義語や、対義語は、情報検索や、情報抽出、感情分析などの分野で文章の素性を識別するために用いられる。また、それらに用いられる辞書などは人手で作成されたものが多く、その開発は非常にコストがかかる。そのため、コーパスから対義語を自動で抽出することが出来れば、様々な分野で役立つ。
対義語の抽出に関して、単語埋め込みを利用した研究がある。既存の感情極性や対義語の辞書を用いて、SVMなどで対義関係を学習し、対義関係の識別を行っている[1][2]。しかし、これらは人手で作成された辞書を用いて学習を行っており、コーパスから得られるデータのみでの単語埋め込みでの対義語の抽出は行われていない。
本研究では、単語埋め込みを利用して、名詞の対義語の自動抽出を試みる。単語埋め込みはWord2Vecを用いて学習する。Word2Vecは、教師なしテキストデータから、単語の文法的、意味的な情報を学習し、数100次元のベクトルで表現する。しかし、Word2Vecには、対義語が類義語よりも高い類似性を示すという欠点があった。本研究では、この性質を利用して、高い類似性を持つ単語対から対義語を抽出することを検討する。