強田や中瀬が行っていない単語での機械学習を用いた類義語の使い分け

赤江は,強田や中瀬が行っていない単語での機械学習を用いた類義語の使い分けの研究を行った.

赤江は使い方の分かる類語例解辞典[8]および「擬音語・擬態語」使い分け帳[9]から人手で選んだ2組から5組の類義語を利用した使い分けを行い,1991年~1995年,2011年~2015年の毎日新聞から類義語の組のいずれかの語を含む文を獲得した.

データ数は1語につき100文以上のものを実験を行い,11組29単語を出現率に合わせた場合と同数に合わせた場合をベースライン手法と比較し,評価を10分割のクロスバリデーションで行った.

赤江の研究の成果として,機械学習を用いた類義語の使い分けは全ての単語組においてベースライン手法よりも提案手法の方がよりよい正解率が出ることを明らかにした. また,機械学習での性能に基づき使い分けが必要な類義語組とそれほど必要でない類義語組を明らかにし,各単語から有用な素性も得た.

使い分けが必要な類義語として「おかげ」と「せい」と「ため」,「はっきり」と「きっぱり」, 使い分けが必要でない類義語対として「うろうろ」と「ぶらぶら」などがあった.