本研究では,言い換えを利用して増えた学習データ数をSemEval2の学習データ数の比率になおし,実験を行う.
先行研究[4]と本研究の違いは,対象としている言語が違っている.先行研究[4]は英語,本研究は日本語を対象としている.また,本研究では,単語の選定をする際,人が思いつく語を選定する場合もあることが先行研究[4]と異なる点である.
語 | 「内容」「動機」「価値」を含む文 | 「意味」に言い換えた文 | 語義 |
内容 | 内容は別項の通りだが… | 意味は別項の通りだが… | 語義1 |
動機 | 着陸の動機は明らかにされていない。 | 着陸の意味は明らかにされていない | 語義2 |
価値 | 一票の価値が最も低い神奈川四区と… | 一票の意味が最も低い神奈川四区と… | 語義3 |
言い換えを利用した学習データの増やし方の具体例を以下に示す.
例として多義語「意味」の学習データの増やし方を考える.多義語「意味」には,岩波国語辞典では以下の3つの語義がある.
辞典の3つの語義を特徴付けたものを人手で選定する.ここでは,「内容」「動機」「価値」とする.そして,「内容」「動機」「価値」を含む文を新聞から抜き出す.
表3.1から表3.3のように「内容」「動機」「価値」を含む文を新聞から抜き出す.そして,表3.4のように抜き出した文から「内容」「動機」「価値」をそれぞれ「意味」に言い換える.
このとき「内容」を「意味」に置き換えた場合,言い換えた後の「意味」は辞典に基づく語義1を持つ「意味」とする.これが学習データになるので,学習データを増やすことができる.その学習データを利用して「意味」という単語の多義性解消を行う.