Next: 最大エントロピー法
Up: 本研究の手法
Previous: SemEval2の学習データ数を変更
目次
言い換えを利用した学習データの増やし方を説明する.多義語を1#1
とし,ここでは,その多義語1#1
は語義を2#2
個持つものとする.
- 手順1 多義語1#1
の語義ごとにその語義を特徴付ける語を人手で選定する.この選定では,語義の定義文中の語を参考にしている.定義文中の語を選定する場合が多いが,定義文にはないが定義文から人が思いつく語を選定する場合もある.
- 手順2 辞典の3#3
番目の語義を特徴付ける語を4#4
とする.(3#3
=1,2,3....2#2
)
- 手順3 4#4
を含む文を新聞から抜き出す.
- 手順4 抜き出した文から4#4
を1#1
に言い換える.このとき4#4
を1#1
に言い換えた場合,言い換えた後の1#1
は辞典の3#3
番目の語義を持つ1#1
となる.これを学習データとして新たに獲得することができる.これにより自動で学習データを増やすことができる.そして,その学習データを利用して1#1
という単語の多義性解消を行う.学習に使用した素性は48種類あり,文構造や文中にある単語などを素性とする.機械学習には最大エントロピー法を利用する.
本研究では,言い換えを利用して増えた学習データ数をSemEval2の学習データ数の比率になおし,実験を行う.
先行研究[4]と本研究の違いは,対象としている言語が違っている.先行研究[4]は英語,本研究は日本語を対象としている.また,本研究では,単語の選定をする際,人が思いつく語を選定する場合もあることが先行研究[4]と異なる点である.
表 3.4:
言い換える前と言い換えた後の文
| 語 |
「内容」「動機」「価値」を含む文 |
「意味」に言い換えた文 |
語義 |
| 内容 |
内容は別項の通りだが… |
意味は別項の通りだが… |
語義1 |
| 動機 |
着陸の動機は明らかにされていない。 |
着陸の意味は明らかにされていない |
語義2 |
| 価値 |
一票の価値が最も低い神奈川四区と… |
一票の意味が最も低い神奈川四区と… |
語義3 |
言い換えを利用した学習データの増やし方の具体例を以下に示す.
例として多義語「意味」の学習データの増やし方を考える.多義語「意味」には,岩波国語辞典では以下の3つの語義がある.
- 語義1:その言葉の表す内容。意義。「辞書を引けば—がわかる」
- 語義2:表現や行為の意図・動機。「どういう—でそんなことをしたのか」
- 語義3:表現や行為のもつ価値。意義。「そんな事をしても—がない」
辞典の3つの語義を特徴付けたものを人手で選定する.ここでは,「内容」「動機」「価値」とする.そして,「内容」「動機」「価値」を含む文を新聞から抜き出す.
表3.1から表3.3のように「内容」「動機」「価値」を含む文を新聞から抜き出す.そして,表3.4のように抜き出した文から「内容」「動機」「価値」をそれぞれ「意味」に言い換える.
このとき「内容」を「意味」に置き換えた場合,言い換えた後の「意味」は辞典に基づく語義1を持つ「意味」とする.これが学習データになるので,学習データを増やすことができる.その学習データを利用して「意味」という単語の多義性解消を行う.
Next: 最大エントロピー法
Up: 本研究の手法
Previous: SemEval2の学習データ数を変更
目次
Yuma Toda
2018-02-27