また,本研究では学習データとテストデータを合わせてから,ランダムにそれぞれ50個ずつ学習データとテストデータを作りなおし,実験を行う.また,ランダムに作りなおした後,学習データとテストデータの中身を全て交換し,実験を行う.こうすることで,6個の単語で12回実験を行うことができる.本研究では,毎日新聞1991年から1995年の5年分の新聞データを使用する.
また,本研究では言い換えによって増えたデータ数を,SemEval2の学習データの比率になおし実験を行う.
機械学習は最大エントロピー法を使用する.また,表4.1に実験に使用した素性(解析に用いる情報)を示す.表4.1は文献[9]を参考にしている. これらの素性を,対象語が含まれる文から取り出す.対象語とは,処理する多義語のことである. 表4.1中に記述されている分類語彙表の番号とは,分類語彙表によって与えられた語ごとの意味を表す10桁の番号である.