next up previous contents
Next: SemEval2の学習データ数を変更 Up: 本研究の手法 Previous: 本研究の多義性解消の方法   目次

10分割クロスバリデーション

本研究は様々な手法を用いているので,単語ごとに適した手法を自動的に選択する手法を用いる.具体的には,「手法1:SemEval2 の学習データのみを用いる手法」「手法2:SemEval2 と言い換えによって増えたデータを用いる手法」「手法3:言い換えによって増えたデータのみを用いる手法」「手法4:最頻出語義を常に出力する手法」の4つの手法を用いる. これらの手法ごとに学習データのみでの正解率を求める.ここでいう正解率とは,多義性解消の正解率である.学習データのみでの正解率を求める際10分割クロスバリデーションを用いる.10分割クロスバリデーションは,学習データを10個に分割し,そのうちの1つをテストデータとし,それ以外の9つを学習データにする.10分割されたデータがそれぞれテストデータとなるように10回繰り返す.そうすることで手法ごとの学習データ全体の傾向を知ることができる.そしてSemEval2の学習データでの10分割クロスバリデーションにより4手法の中で一番正解率が良かった手法を自動選択する.本研究ではこの手法を「手法5:クロスバリデーションによる手法選択」とする.



Yuma Toda 2018-02-27