教師あり機械学習を用いた類義語の使い分けに関する知識獲得

赤江らは,EDR電子化辞書から得られる類義語を利用し,機械学習による類義語の使い分けの研究を行った[2].

赤江らは類義語の使い分けのために機械学習を使用し,複数の類義語対について,どの程度使い分けが必要か,またどのような場合に使い分けが必要かなどを新たに示した.

赤江らは,使い方の分かる類語例解辞典[3]および「擬音語・擬態語」使い分け帳[4]から人手で選んだ類義語を利用した.

獲得した類義語対ごとに類義語の使い分けの実験を行った.入力文は,1991年〜1995 年,2011 年〜2015 年の毎日新聞から獲得した,類義語対のいずれかの語を含む文である. 評価は10分割のクロスバリデーションで行った. 機械学習の再現率の高さごとに名詞の類義語対を,高・中・低に分類し, 機械学習における素性(学習に用いる情報のこと) を分析することで類義語の使い分けに重要な情報を把握した.

赤江らの研究の成果として,機械学習を用いたの類義語の使い分けの手法自体が類義語の使い分けに有効であることを示した. 更に,機械学習での性能に基づき使い分けが必要な名詞の類義語対とそれほど必要でない名詞の類義語対を明らかにした. また,実際に素性を分析した.使い分けに役立つ情報を明らかにし,どのような場合に使い分けの必要があるかを明らかにした. 使い分けが必要な名詞の類義語対として「貯金」と「貯蓄」,「メダル」と「賞碑」, 使い分けが必要でない類義語対として「省エネ」と「省エネルギー」,「上期」と「上半期」があった.