next up previous contents
Next: 機械学習を用いた副詞の類義語の使い分け Up: 先行研究 Previous: 機械学習を用いた表記選択の難易度推定   目次


機械学習を用いた名詞の類義語の使い分け

強田らは,機械学習による分類性能の高い名詞の類義語の使い分けの研究を行っている[4].

類義語に関する研究では,類義語の使い分けに機械学習を用いた研究はない. 強田らは名詞の類義語の使い分けのために機械学習を使用し,複数の名詞の類義語対について,どの程度使い分けが必要か, またどのような場合に使い分けが必要かなどを新たに示した.

強田らはEDR電子化辞書と1991年の毎日新聞を使用し,以下の条件を満たす名詞の類義語を獲得した.

条件1
その二つの語が,日本語単語辞書において,同一の概念識別子をもつこと
条件2
その二つの語が両方とも,日本語単語辞書において,付与された概念識別子が1つであること
条件3
その二つの語が両方とも,1991年の毎日新聞で出現頻度が50回以上であること
条件4
形態素解析システムJUMAN[6]を用いて解析した結果,その二つの語の代表表記が異なること

獲得した名詞の類義語対について,類義語対ごとに類義語の使い分けの実験を行った.入 力文は,1991 年の毎日新聞から獲得した,類義語対のいずれかの語を含む文である. 評価は10 分割のクロスバリデーションで行った. 機械学習の再現率の高さごとに名詞の類義語対を,高・中・低に分類し, 機械学習における素性(学習に用いる情報のこと) を分析することで類義語の使い分けに重要な情報を把握した.

強田らの研究の成果として,機械学習を用いた名詞の類義語の使い分けの手法自体が類義語の使い分けに有効であることを示した. 更に,機械学習での性能に基づき使い分けが必要な名詞の類義語対とそれほど必要でない名詞の類義語対を明らかにした. また,実際に素性を分析した.使い分けに役立つ情報を明らかにし,どのような場合に使い分けの必要があるかを明らかにした. 使い分けが必要な名詞の類義語対として「貯金」と「貯蓄」,「メダル」と「賞碑」, 使い分けが必要でない類義語対として「省エネ」と「省エネルギー」,「上期」と「上半期」があった.



2018-03-09