Next: 先行研究
Up: honron1
Previous: 図目次
目次
類義語とは,語形は異なるが意義がほぼ同じである語のことである.例としては「場合」と「際」などがある.
類義語に関する研究では,西尾[3]の人間の会話における類義語の使用傾向を調査し分析する研究などがある.
また,小島ら[4]は異表記の使い分けを機械学習で行った.
小島らが機械学習を用いて使い分けを行った対象である異表記とは, 同じ語の表記が異なるもののことであり,「しょう油」と「醤油」が異表記対の例となる.小島らの研究では,異表記の対を機械学習の対象としているが,類義語全般を対象とはしていない.
また,強田ら[1]はEDR電子化辞書から得られる類義語を利用し,機械学習による名詞の類義語の使い分けの研究を行った.中瀬[2]は強田らと同様に,EDR電子化辞書から得られる類義語を利用し,機械学習による副詞の類義語の使い分けの研究を行った.しかし,強田,中瀬らの研究では名詞,副詞の類義語の一部でしか使い分けの研究を行っていないため,使い分けが必要な類義語は強田,中瀬らが扱った類義語の他にもまだ多数存在する.そこで,強田,中瀬らが扱っておらず,かつ言語学で議論となっている類義語の使い分けの研究を行う.
本研究では,機械学習の性能や素性が類義語の使い分けに役立つと考え,機械学習を用いて類義語の使い分けを行う.
本研究の成果は,文章を生成する際の類義語の選択,適切な表現の使い分けの提案などに利用できると考える.
本研究では,使い方の分かる類語例解辞典[5]および「擬音語・擬態語」使い分け帳[6]から得られる類義語を利用する.
類義語は意味がほぼ同じであり,一見類義語は使い分けが必要ないと思いがちだが,実は使い分けが必要な場合がある.例えば,「おおよそ」と「おおむね」は文献[5]によると「ほとんどすべてであるさま」という意味で類義語とされているが,後ろに「の目安」をつけることができるのは「おおよそ」の方だけであり,後ろに「良好」をつける場合は「おおむね」だけである.このように使い分けが必要な場合がある.
機械学習によって類義語を推定しやすい場合は,類義語でも使い分けの必要な語とわかり, 逆に機械学習で推定しづらい場合は類義語の使い分けが明瞭でないということがわかる.機械学習の素性を分析することで,使い分けに役立つ知見を得ることを目的とする.
本研究の主な主張点を以下に整理する.
- 類義語の使い分けのために機械学習を使用し,類義語11組について実験を行った結果,正解率のマクロ平均は「データ数を出現率に合わせた実験」では,提案手法が0.84,ベースライン手法が0.65,素性2のみの手法では0.82であり,「データ数を同数に揃えた実験」では,提案手法が0.81,ベースライン手法が0.42,素性2のみの手法では0.78であったため,この提案手法自体が類義語の使い分けに対して有用である.
- 実際に機械学習における素性(学習に用いる情報のこと)を分析することで類義語の使い分けに重要な情報を把握することができ,使い分けに役立つ情報を明らかにした.例として「作成」の推定に役立つ素性には「表」「リスト」などがあり,「作製」の推定に役立つ素性には「細胞」「遺伝子」などがあった.
本論文の構成は以下の通りである.
第2章では,本研究に関連する研究としてどのような研究が行われてきたかを記述し,その研究と本研究との関連を説明する.
第3章では,本研究が扱う問題の設定とそれを解決するために提案した手法について説明を行う.
第4章では,本研究が行った使い分けの実験についての説明と,その結果と考察について記述する.
第5章では,第4章の結果から素性分析による考察を行う.
第6章では,機械学習を用いた文章の誤り訂正についての実験についての説明と,その結果について記述する.
第7章ではまとめを行う.
root
2018-02-28