next up previous contents
Next: 評価方法(F値) Up: 記載不備論文の自動検出 Previous: 最大エントロピー法   目次

データ

本実験では, 2011年度の言語処理学会年次大会論文(266件)を学習用データとして使用し, 2012年度の言語処理学会年次大会論文(305件)を評価用データとして使用する. また, 記載必要項目が欠落していると人手で判別した論文を正解データ, 記載必要項目が欠落していないと人手で判別した論文を不正解データとしている. 機械学習手法では, 正解データと不正解データを同数にして学習を行っている. データの詳細を表4.1, 表4.2に示す.




表 4.1: 2011年の言語処理学会年次大会論文の詳細
項目名 正解 不正解 総数
比較 53 213 266
問題点 73 193 266
目的 83 183 266
7 259 266




表 4.2: 2012年の言語処理学会年次大会論文の詳細
項目名 正解 不正解 総数
比較 59 246 305
問題点 114 191 305
目的 94 211 305
9 296 305



2017-02-24