next up previous contents
Next: 単語の選定(名詞) Up: 実験 Previous: 実験   目次

名詞の多義語での実験

機械学習の入力は,多義語を含む文,出力は,複数ある語義のうち,どの意味で使われたかとする. 本研究では,SemEval2[2]の対象単語50個のうち名詞「はじめ」「市場」「電話」「意味」「前」「子供」の計6個を実験に使用する多義語とする.SemEval2[2]は,多義性解消のコンテストで用意されたものであり,多義性解消の研究や実験を行いやすいように人手で作成されたものである.また,その対象の多義語は50個あり,多義語1語につき,学習データとテストデータがそれぞれ50個ずつ用意されている.

また,本研究では学習データとテストデータを合わせてから,ランダムにそれぞれ50個ずつ学習データとテストデータを作りなおし,実験を行う.また,ランダムに作りなおした後,学習データとテストデータの中身を全て交換し,実験を行う.こうすることで,6個の単語で12回実験を行うことができる.本研究では,毎日新聞1991年から1995年の5年分の新聞データを使用する.

また,本研究では言い換えによって増えたデータ数を,SemEval2の学習データの比率になおし実験を行う.

機械学習は最大エントロピー法を使用する.また,表4.1に実験に使用した素性(解析に用いる情報)を示す.表4.1は文献[9]を参考にしている. これらの素性を,対象語が含まれる文から取り出す.対象語とは,処理する多義語のことである. 表4.1中に記述されている分類語彙表の番号とは,分類語彙表によって与えられた語ごとの意味を表す10桁の番号である.





表 4.1: 使用した素性


29#29




Yuma Toda 2018-02-27