機械学習を用いた類義語の使い分けに関する知識獲得

赤江[3]は, 教師あり機械学習を用いることにより, 類義語の使い分けを行い, 類義語の使い分けに関わる知見を得ている.

類義語11組について, 類義語の組ごとに類義語の使い分けの実験を行った. 入力文は, 1991年〜1995年, 2011年〜2015年の毎日新聞から獲得した, 類義語のいずれかの語を含む文である. 評価は10分割のクロスバリデーションで行う. 類義語の組のうち出現頻度が多かった語を全ての問題の分類先とするものをベースライン手法とし, 提案手法とベースライン手法の性能の比較を行う. 実験の結果, 正解率のマクロ平均は「データ数を出現率に合わせた実験」では, 提案手法が0.84, ベースライン手法が0.65であり, 「データ数を同数に揃えた実験」では, 提案手法が0.81, ベースライン手法が0.42であったため, この提案手法自体が類義語の使い分けに対して有用である.

この研究では, いくつかの類義語について実際に使い分けに役立ったと思われる情報を明らかにした. 特に, 類義語の使い分けに関する文献に載ってないような新たな知見が多く得られている. 例えば, 「作成」は「表」「リスト」などを作る時に使われ, 「作製」は「細胞」「遺伝子」などを作る時に使われるなどの素性を得られた. また, 品詞間における類義語の使い分けに関する特徴も得られた. この2つの成果は, 文章を生成する際の類義語の選択, 適切な表現の使い分けの提案に利用できる.