まず、学習データ内に10回以上出現した名詞は7307単語存在し、その中でお互いに最も高い類似度を示した組み合わせは1008組存在した(表4.2)。
Table:
抽出結果
名詞 |
組み合わせ総数 |
7307 |
1008 |
そのうち、対義関係にあったペアは60組(成功例)、別の対義語とのペアが28組(失敗例1)、対義語を持たない単語とのペアが211組(失敗例2)、対義語を持たない名詞どうしのペアが709組存在した(その他)。 以下にそれぞれのグループとそのペアの例を示す。
- 成功例
成功したペアの例と類似度を表4.3に示す。成功したペアは対義関係にある単語であり、そのほとんどが置き換えが可能なものであった。
Table:
成功例
個数 |
60個 |
ペア |
類似度 |
新郎-新婦 |
0.98 |
西-東 |
0.49 |
大人-子供 |
0.31 |
- 失敗例1
失敗例1のペアについて例と類似度を表3に示す。失敗例1は本来の対義語とは別の対義語と類似度が高くなったペアである。表4.4が示すように同義語のペアが多く存在する。
Table:
失敗例1
個数 |
28個 |
ペア |
類似度 |
眼前-眼下 |
0.61 |
昨晩-昨夜 |
0.37 |
昨日-きのう |
0.30 |
- 失敗例2
失敗例2のペアについて例と類似度を表4.5に示す。失敗例2は片方が対義語を持つが、ペアの単語が対義語を持たないであろう単語とのペアである。このペアは、対義語と考えられる単語よりも共起する文章が学習文に多く存在するため、それらよりも類似度が高い。
Table:
失敗例2
個数 |
211個 |
ペア |
類似度 |
北風-木枯らし |
0.77 |
好調-売れ行き |
0.46 |
高校-卒業 |
0.38 |
- その他
その他のペアについて表4.6に示す。その他のペアはお互いに対義語を持たないと考えられるペア、対義語が学習文内に存在しないペアである。表4.6に示すように連続して存在する名詞や、固有名詞が多く存在する。
Table:
その他
個数 |
709個 |
ペア |
類似度 |
事典-百科 |
0.98 |
炭素-一酸化 |
0.71 |
アメリカ-米国 |
0.25 |
学習データから抽出した名詞について、対義関係を持つ単語が存在するものは299組(成功例+失敗例1,2)であり、全体の29%ほどであった。そのうち、対義語をもつ名詞を含むペアはおよそ20%であった(成功例/(成功例+失敗例1,2))。そのうち、うまく対義関係を抽出できたものは60組であり、対義語をもつ単語のみの組み合わせにおいて、およそ68%の精度で抽出することが出来た(成功例/(成功例+失敗例1))。
しかし、全体の91%は対義語を持たない単語を含んだ組み合わせであり(失敗例2+その他)、対義語抽出におけるノイズとなり、全体の精度としては、約5.9%ほどという結果になった。