Next: 記載不備論文の修正に向けた分析 Up: 記載不備論文の自動検出 Previous: 検出の成功例と失敗例目次

考察

表4.3から表4.6の結果より, 機械学習手法とベースライン手法のF値を比較すると, ルールベース手法のほうがF値が高くなっていることが分かる. このことより記載不備論文の検出においてはルールベース手法は有効であると考える.

機械学習手法の精度が低い原因として, 素性の数が考えられる. 機械学習手法では論文全体に出現した全ての単語を素性として利用している. その結果, 素性の数が多くなってしまい, 機械学習が文章作成支援の対象である論文を検出することができないという可能性があると考える. この原因については, 素性の再選定をする必要があると考える. 具体的には, 論文全体に出現した単語ではなく, 第一章に出現した単語のみを素性にするなどが考えられる.

機械学習手法の精度が低い原因として, 2値分類による曖昧性が原因であると考えられる. 本実験では記載必要項目が欠落しているか否かの2値で分類しているが, 使用している論文データの中には, 記載必要項目について全く書かれていない論文や書かれているようであるが不明瞭な論文もある. また, その論文の読み手によって正解・不正解の基準が変わると考える. 専門家が読むことを想定すると, ある程度詳しく書かれていなくても記載必要項目について理解できるが, 専門家以外が読むことを想定すると, 詳しく書かなければ記載必要項目について理解できないと考える. そのような曖昧な論文については, 人手でも判別が難しく, 機械学習で判別するのはさらに困難なのではないかと考える. 分類を2値ではなく細かい分類にすることで機械学習手法の精度が高くなる可能性があると考える.

2017-02-24