そこで,本研究は,様々な手法がある中,単語ごとに適した手法を自動的に選択するために10分割クロスバリデーションを用いる.10分割クロスバリデーションを用いることで,単語ごとに適した方法を使用できていなかったという問題が解決できる.10分割クロスバリデーションを用いて正解率の向上を試みる.
また,別の実験としてSemEval2[2]の学習データ数を言い換えによって増えたデータ数の X 倍 (ここでは 1/10,1/5,1/2,1,2,5,10) のデータ数に変更することにより,性能の変化を調査する. SemEval2[2]は,多義性解消のコンテストで用意されたものであり,多義性解消の研究や実験を行いやすいように人手で作成されたものである.また,その対象の多義語は50個あり,多義語1語につき,学習データとテストデータがそれぞれ50個ずつ用意されている.
また,もう一つ別の実験として先行研究[1]で扱っていなかった動詞と形容詞の実験を行い,言い換えによって増えたデータを追加後,正解率の変化を調査する.
実験の結果,名詞の実験では,「手法1:SemEval2の学習データのみを利用する手法」の正解率が0.733に対して,「手法5:クロスバリデーションによる手法選択」の正解率が0.757となっており,正解率が向上した.また,「手法5:クロスバリデーションによる手法選択」の正解率0.757が最も良い正解率となった.
また,多義語6単語で合計12回の実験を行ったが,12回の実験中10回は正しく手法を選択することができた.
SemEval2の学習データ数を言い換えによって増えたデータ数の X 倍 (1/10,1/5,1/2,
1,2,5,10) のデータ数に変更する実験では,「手法2:SemEval2 と言い換えによって増えたデー タを用いる手法」は,SemEval2の学習データ数が増えるにつれて性能が向上する傾向がみられた.
動詞の実験では,「手法1:SemEval2の学習データのみを利用する手法」の正解率0.913に対して,「手法2:SemEval2の学習データ+言い換えによって増えた学習データを利用する手法」の正解率0.893となり,正解率が低下した.
形容詞の実験では,「手法1:SemEval2の学習データのみを利用する手法」の正解率が0.90に対して,「手法2:SemEval2の学習データ+言い換えによって増えた学習データを利用する手法」の正解率が0.92となり,正解率はほぼ変わらなかった.