Next: 評価方法(F値)
Up: 記載不備論文の自動検出
Previous: 最大エントロピー法
目次
本実験では, 2011年度の言語処理学会年次大会論文(266件)を学習用データとして使用し, 2012年度の言語処理学会年次大会論文(305件)を評価用データとして使用する. また, 記載必要項目が欠落していると人手で判別した論文を正解データ, 記載必要項目が欠落していないと人手で判別した論文を不正解データとしている. 機械学習手法では, 正解データと不正解データを同数にして学習を行っている. データの詳細を表4.1, 表4.2に示す.
表 4.1:
2011年の言語処理学会年次大会論文の詳細
項目名 |
正解 |
不正解 |
総数 |
比較 |
53 |
213 |
266 |
問題点 |
73 |
193 |
266 |
目的 |
83 |
183 |
266 |
例 |
7 |
259 |
266 |
表 4.2:
2012年の言語処理学会年次大会論文の詳細
項目名 |
正解 |
不正解 |
総数 |
比較 |
59 |
246 |
305 |
問題点 |
114 |
191 |
305 |
目的 |
94 |
211 |
305 |
例 |
9 |
296 |
305 |
2017-02-24