対義語の抽出制度の向上について考察する。まず、提案手法では、ノイズとなる対義語を持たないペアが多く抽出されている。表5が示すように(事典-百科)や、(炭素-一酸化)など連続して出現する名詞が多く抽出されている。そのため、連続して出現する名詞や、熟語となる名詞を最初から除外してしまうことで精度を上げられる可能性がある。学習データから候補となる単語を収集する際に、形態素解析を利用することで連続する名詞を除外することが出来る。しかし、(質疑-応答)など、うまく抽出されたペアも除外されてしまうという欠点がある。そこで、単語のペアに対して共起する確率に一定の閾値を設け、同じ文章に共起しすぎる単語を対義語の候補から外すことで解決できるのではないかと考えている。また、アメリカのような固有名詞は、最初から除外してしまうことで精度を上げることは可能であろう。
その他のグループの中で、対義語を持っているが、10回以上出現しない、もしくは学習データ内に対義語が存在しない単語も出現した。その他709組の中の174組が該当する。これらは、学習データの量を増やすことである程度改善されると予想できる。
他には、北風-木枯らしのように共起しなくとも、本来の対義語よりも共通する文脈が多い場合に類似度が高くなるパターンもあった。この場合は学習データを増やすことで逆に結果は悪くなってしまう。この例の場合は北風と木枯らしは両方とも冬に吹く風であり、対義語である南風と比べて、夏-冬など、別の対義語の関係から類推することで改善、あるいは不正解のペアとして排除することができるのでないかと考えている。
次に、抽出条件を変えることで精度を向上する可能性について考察する。提案手法では、出現回数が10回以上のものに絞って抽出を行った。そこで、さらに出現回数が多いものに限定する、抽出したものを類似度でフィルタリングすることで精度を向上させることを試みた。
Subsections