3,4組の単語とは,それぞれが何らかに関連する単語ではあるが、類義語や対義語とは判断できない単語のことである.例としては「春・夏・秋・冬」(関連する単語:季節,四季)などが挙げられる.
先行研究に類義語の使い分けの研究がある.類義語に関する研究では,西尾[6]の人間の会話における類義語の使用傾向を調査し分析する研究などがある.
また,小島ら[7]は「しょう油」と「醤油」のような同じ語の表織香ね記が異なる場合の使い分けを機械学習で行った.
また,強田ら[1]はEDR電子化辞書から得られる類義語から機械学習による名詞の類義語の使い分けを,中瀬[2]は副詞の類義語の使い分けの研究を行った.
そして,赤江[3]は強田,中瀬らが扱っておらず,かつ言語学で議論となっている類義語の使い分けの研究を行い,織金[4]は動詞と形容詞の類義語の使い分けを行った.
本研究では,機械学習の性能や素性が類義語や対義語だけでなく,その他の表現の使い分けにも役立つと考え,機械学習を用いて3,4組の単語組の使い分けと知見獲得を行う.
本研究の成果は,日本語初学者に対する知見獲得や書き間違えの修正に役立つと考えられる.
本研究では,私が考えたそれぞれが何らかに関連する単語ではあるが,類義語や対義語ではない3,4組に纏められる単語組を列挙したものを利用する.
機械学習によって単語を推定しやすい場合は,他の単語でも使い分けの必要な語とわかり, 逆に機械学習で推定しづらい場合は単語の使い分けが明瞭でないということがわかる.機械学習の素性を分析することで,使い分けに役立つ知見を得ることを目的とする.
本研究の主な主張点を以下に整理する.
- 単語組の使い分けのために機械学習を使用し,3,4組の単語13組47単語について実験を行った結果,データ数を同数に揃えた実験では提案手法が0.68,同数におけるベースラインが0.28であるため,この提案手法自体が3,4組の使い分けに対して有用であると言える.
- 実際に機械学習における素性(学習に用いる情報のこと)を分析することで3,4組の単語の使い分けに重要な情報を把握することができ,使い分けに役立つ情報を明らかにした.
例として,「上」の推定に役立つ素性には「インターネット」,「事実」などがあり,「下」の推定に役立つ素性には「水面」,「体制」などがあった.
本論文の構成は以下の通りである.
第2章では,本研究に関連する研究としてどのような研究が行われてきたかを記述し,その研究と本研究との関連を説明する.
第3章では,本研究が扱う問題の設定とそれを解決するために提案した手法について説明を行う.
第4章では,本研究が行った使い分けの実験についての説明と,各単語における結果と考察について記述する.
第5章では,第4章の結果全体に対する考察を行う.
第6章ではまとめを行う.