分類に利用する項目の設定には古本ら[1]の「誤りおよび不適切表現の分類」を参考した.分類には大きく4つの項目に分け,さらにそこから詳細な項目へと分類を行った.
以下に本実験で使用した分類の項目を示す.
ーーーーーー4つの大項目ーーーーーー
ーーーーーー詳細な項目ーーーーーー
実際に抽出した差分箇所から,設定した分類項目ごとの例文をいくつか掲載する. 例文の見方はアンダーラインを引いている部分が修正前の表現であり,括弧の中の表現が修正が行われた後の表現である.Φは空表現である.
例文:『余分な漢字表現を含む言い回しは,冗長で分かり(→わかり)にくい 』
解説:同一論文の中でひらがなの「わかる」を用いているので,ひらがなで 統一している.
例文:『教師あり機械学習手法で(→に)は性能の優れたサポートベクトルマシ ンを利用する』
解説:「機械学習」か「機械学習手法」どちらかの表現で統一させている.助 詞の修正もあり。
例文:『機械学習を行った場合(→では)あまりよい結果は得られなかった』
解説:文自体に大きな意味の変化をもたらさずに,より短い表現へと修正し ている。
例文:『要約前の文章から得られる情報を用いて文の順序推定を行う手法(→ の)が主な手法である』
解説:同じ単語や文が二回以上用いられて冗長なため修正.(例文の場合「手 法」が二回用いられているため.)
例文:『また,Φ(→副助詞「は」と格助詞「が」に関わる)データの分析を行 うことにより,日本語学習者にとって有用な情報を獲得する』
解説:どのようなデータを分析したのかを明確にするために情報を補完した.
例文:『適合率では優るものの(→ベースラインより高かったが,)F値ではベ ースラインより低かった』
解説:何に優るのかが書かれておらず,わかりにくい表現になっている.
例文:『対象語列の出現頻度と照合(→を利用)して誤り表現の検出を行う』
解説:英語でuseの意味をもつ「利用」という語を用いて違和感のない表現に 修正している.
例文:『素性を拡充することでさらに性能向上が期待できる(→を目指したい と考えている)』
解説:論文として指摘を受けにくいような安全な表現へと修正している.
例文:『素性を拡充することでより良い精度(→さらに性能)向上を目指したい と考えている』
解説:向上と言う語に係る語として,良い精度向上は日本語としておかしい ため修正している.
例文:『どちらが(→を)空白に入れるべきかを推定する』
解説:「入れる」に係る語として「が」は不適切なため修正している.
例文:『機械学習を用いΦ(→た)格助詞「が」,副助詞「は」の分類を初め て行った』
解説:「用い」の係り先として『行った』ではなく「分類」に係ってほしいの で「用いた」に修正している.
例文:『ヒューリスティックルールに加え教師あり機械学習法を利用すること で性能の改善が可能であることがわかる(→わかった)』
解説:実験などを行った際の結果なので過去形で表している.
例文:『結果をさらによく(→改善)する方法として次の方法が考えられる』
解説:口語を論文らしい表現に修正している.
例文:『近年,パソコンやインターネットの普及により,計算機を使って文字 を入力する機会が増し(→増え)ている』
解説:硬い印象を与える語を柔らかい表現へと修正している.