Word2Vec

Word2Vecはコーパスから単語の分散表現を得る手法である。分散表現とは、単語の意味を固定長のベクトルで表現することである。単語をベクトル空間内に埋め込むことで、ベクトル間の距離や演算を利用することができる。Word2Vecは、分布仮説という、「意味の似ている単語は似た文脈で出現する」という考えに基づき、単語の分散表現を学習する。この時、周辺語彙からある単語を推測する方法で学習するモデルをCBoW(continuous bag-of-words)、ある単語から周辺語彙を推測するモデルをskip-gramと言い、どちらも2層のニューラルネットワークである。Word2Vecで学習した分散表現は、似た意味を持つ単語のベクトルは似たベクトルになり、”king - man + woman = queen”といった加法性があることも知られている。これらの性質から、単語の意味の類似性や関連性を測定したり、加法構成性の評価タスクなどに利用される。しかし、対義語のような、意味が反対でありながら似た文脈に出現する単語とも似通ったベクトルになるように学習するため、類似度が高くなってしまうという問題もある。
本研究では、この欠点を利用し、対義語の抽出を行う。



Subsections