next up previous contents
次へ: 分析1:「は・が」使い分け 上へ: 素性の取捨に基づく分析による効果的な素性の俯瞰 戻る: 交差検定   目次

分析:手順

教師データを利用し,10分割交差検定による学習を行う. 次に,教師データから,特定の素性を取り除き,10分割交差検定による学習を行う.

二つの結果の正解率を比べることにより,有用な素性か否かを判断する. 特定の素性を取り除いた教師データの交差検定の正解率が,取り除く前の教師の交差検定の正解率よりも低い場合は,その素性は有効であるといえる. また,特定の素性を取り除いた教師データの交差検定の正解率が,取り除く前の教師の交差検定の正解率よりも高いあるいは同等の場合は,その素性は有効でないといえる. 取り除く素性群は,述部$V$に関係する素性群「述部$V$」(素性番号1〜5),体言の文節$N$に関係する素性群「体言の文節$N$」(素性番号6〜10),共起単語に関する素性群「共起」(素性番号11,12),述部$V$の係り先に関する素性群「係り先」(素性番号13〜17),述部$V$に係るN以外の体言の文節に関係する素性群「N以外体言」(素性番号18〜23), 品詞に関する素性群「品詞」(素性番号3,8,15,20),分類語彙表に関する素性群「分類」(素性番号4,9,12,16,21),推定する助詞の直前直後に出現する素性群「直」(素性番号24,25),解析対象の文内において,解析対象の文節以外にある助詞を表す素性「他助詞」(素性番号26),解析対象の文節内の名詞がすべて,記事内の前方に存在しているか否かを表す素性「文脈情報」(素性番号27)であり,これらを増減させることで,素性の取捨に基づく分析を行う.



平成25年2月12日