次へ: 関連研究
上へ: honron1
戻る: 図一覧
目次
我々が文章作成を行う際,
読者が読みづらい文章を作成することがある.
読みづらい文章には,
意味の分からない専門用語を説明なく用いることや,
狭い文章中に複数の話題が存在すること,
冗長な文章を用いること,
指示語を多く用いること,
文章の順番が良くないことなど,
様々な原因が存在する.
これらの原因の処理を行うことにより,
読みやすい文章となる.
本論文では,
上述の問題のうち,文章の順番を対処する.
文章の順番が良くないために読みづらい文章となっている場合は,
文章を適切な順序に並べ替える必要がある.
文章の順序推定に確率モデルを用いた手法[1,2]があるが,
本論文では2値分類に秀でた分類器である``教師あり機械学習''を利用する.
教師あり機械学習には性能が高いと広く認識されているサポートベクトルマシン(SVM)を用いる.
教師あり機械学習を用いた文章の順序推定として,
内元ら[3]や林ら[4]の研究がある.
内元らは単語の順序,林らは文の順序を扱っている.
ゆえに,本論文では段落の順序推定を行う.
本論文の特徴を以下に整理する.
- 段落の順序推定に教師あり機械学習を用いているという特徴がある.
- 教師あり機械学習を用いることにより,
新たに素性を低コストで,かつ大量に組み込むことができる.
性能向上に有用な素性が見つけられる可能性がある.
- 記事の最初の2段落における順序推定では,
提案手法で(0.85)という高い正解率であった.
この正解率は人手による順序推定の正解率と同等であった.
- 記事内の連接した2段落における順序推定では,
提案手法で(0.60)という正解率であった.
この正解率は人手による順序推定の正解率には劣るものの,
``推定する2段落のうち前方の文章との名詞の一致した数が大きい段落を前方に推定する''比較手法より
高い正解率であった.
- 文と段落の順序推定の結果に対し比較を行い,
段落の特徴を明らかにした.
平成25年2月12日