次へ: 関連研究
上へ: honron1
戻る: 図一覧
目次
文章生成や推敲の問題のひとつに,
段落の順序推定が挙げられる.
複数の段落からなる文章作成の際に,
読み手にわかりやすくなるように
段落を適切な順序に並べかえる必要がある.
本研究では校正された新聞記事を用いて
段落の順序推定を行うことで,
読み手にわかりやすい段落の順序推定を目指す.
文章を元の順序通りに推定する研究として,
内元らの語順の推定[2],林らの文の順序推定[3],伊藤らの段落の順序推定[1]の研究がある.
そのうち,
伊藤らの研究では,機械学習を用いて順序が不明な2段落に対し,
どちらが先かを判定し順序推定を行っている.
実験では,記事内最初の2段落のみを用いる場合,
記事内全ての連接した2段落を用いる場合の2種類を考慮し順序推定を行い,
人間に近い性能を得た.
この研究[1]では,
段落単位での類似性に着目し,
順序推定において段落全体の類似性を素性として用いている.
しかし,段落間の最後の文と最初の文の類似性である,
段落間の隣接する近辺の細かな情報は用いていないという問題がある.
段落間の隣接する近辺の細かな情報も用いることで
段落の順序推定がしやすくなると考え,
そこで,
本研究では段落間の隣接する近辺の細かな情報として,
段落間の最後の文と最初の文に着目し,
伊藤らの素性に拡充していくことで性能向上を目指す.
本論文の特徴を以下に整理する(括弧内は正解率を示す).
- 出力2分類に対し,
学習器に2値分類に秀でたSupport Vector Machineを用いる.
- 段落間の隣接する近辺の細かな情報が段落の順序推定において有用な特徴と考え,
推定段落間の各1文に着目した素性を新たに加えたという新規性がある.
- 段落内の単語の出現位置が段落の順序推定において有用な特徴と考え,
素性として新たに加えたという新規性がある.
- 記事の最初の2段落における順序推定では,
上記の素性を拡充することにより,拡充する前(0.85)とほぼ同等の正解率(0.85)であった.
人手との比較を行った結果,素性の拡充前(0.88),後(0.88)に変わらず人手での順序推定(0.88)とほぼ正解率であった.
- 記事内の連接する全ての2段落における順序推定では,
上記の素性を拡充することにより,拡充する前(0.60)より高い正解率(0.62)であった.
人手との比較を行った結果,素性の拡充によって拡充前(0.60)より高い正解率(0.64)を得た.
また,人手による順序推定の正解率(0.66)に近づいた.
- 記事内全てから2段落を用いる組み合わせにおける順序推定では,
上記の素性を拡充することにより,拡充する前(0.65)より高い正解率(0.68)であった.
人手との比較を行った結果,素性の拡充によって拡充前(0.72)より高い正解率(0.75)を得た.
また,人手による順序推定の正解率(0.77)に近づいた.
- より性能向上がみられた連接2段落対の場合を対象に,
分離平面との距離に基づく素性分析を行い,段落の順序推定に有用な素性を10個検出した.
2章では関連研究の概要と本研究との違いについて述べる.
3章では本研究の問題設定について説明する.
4章では本研究が提案する手法や用いる分類器について説明する.
5章では機械学習に用いる素性について説明する.
6章では提案手法との比較に用いる手法を説明する.
6章では段落の順序推定の実験を行い,結果より考察する.
7章では素性分析を行い,結果を人手により検討する.
8章では2種類の追加実験を行う.
9章にまとめを行う.
平成27年3月4日