next up previous contents
次へ: 実験と結果 上へ: 冗長な文の検出2 戻る: 提案手法   目次


データ

4.4は機械学習で検出する対象の表現を求める一連の流れである.

図: データベース作成
46#46

まず3.1節で頻度分析をした結果から修正頻度の高い表現について, 各表現を含む文をウィキペディアからランダムに10文ずつ収集する. 取り出した10文について手作業で判定し,冗長である文を正例, 冗長でない文を負例とする. 判定した結果正例の割合が8割未満の表現を機械学習で扱う. 正例の割合が8割以上の表現については, 機械学習を用いるまでもなく,冗長な表現の検出に利用できる 手がかりと考えることができるため,ここでの 実験には用いない. 正例の割合が8割未満の表現としては, 「可能」「という」「すること」が見つかった. この表現を含む文をウィキペディアからさらにランダムに収集し, 手作業で判定して冗長である文を正例,冗長でない文を負例とする. 「可能」「という」「すること」のそれぞれ について100文ずつ合計300文のデータを作成する. ここでの正例と負例の判断では, 「可能」などの対象表現が冗長な表現を構成する場合 正例,そうでない場合負例とする. 対象表現以外の箇所が冗長であるか否かは この判断では利用しない.



tsudou 平成24年3月14日