概要

本研究は3,4組の単語に対して,教師あり機械学習を用いることにより,これらの単語の使い分けや知見獲得を行う.

ここでの3,4組の単語とは、「春・夏・秋・冬」「東・西・南・北」「上・中・下」といったような3,4組で纏められ,かつ類義語や対義語ではない単語のことである. このような単語組から各単語においてよく使用されている単語や文法上重要な単語を調査して得たものを知見とし,最終的にこれらの単語組が使い分けが必要かどうかを判断する. 強田ら[1]はEDR電子化辞書から得られた名詞の類義語を利用し,機械学習を用いた名詞の類義語の使い分けの研究を行い,中瀬[2]は強田らと同様の手法で副詞の類義語の使い分けの研究を行った. また,赤江[3]は使い方の分かる類語例解辞典[8]及び「擬音語・擬態語」使い分け帳[9]から得られる類義語を利用して強田らや中瀬とは異なった類義語で使い分けの研究を行い,織金[4]は強田らと同様の手法で動詞と形容詞の類義語の使い分けの研究を行った. ある3,4組の単語間での機械学習の性能が高く,より正確に使い分けを行えていた場合は,その単語組は特に使い分けの必要な単語であるとわかる. また,機械学習が使用した素性を分析して,各単語の使い分けに役立つ情報の考察を行う. このような実験と調査を自身で考えた単語を対象に行う.

本研究の成果は2つある.1つは単語組の使い分けのために機械学習を使用し,3,4組の単語13組47単語について実験を行った結果,データ数を同数に揃えた実験では提案手法が0.68,同数におけるベースラインが0.28であったため,この提案手法自体が3,4組の使い分けに対して有用であると言えたことである.

もう1つは,いくつかの単語組について実際に使い分けに役立ったと思われる情報を明らかにしたことである. 例えば「上・中・下」の場合,「上」では「事実」(事実上)や「インターネット」(インターネット上)といった単語が出現したのに対し,「中」では「活動」(活動中),「下」では「水面」(水面下),「体制」(体制下)のような単語が周辺に出現するということである.

この2つの成果は,日本語初学者に対する知見獲得や書き間違えの修正に役立つと考えられる.