next up previous contents
次へ: 謝辞 上へ: honron1 戻る: 上記以外   目次

おわりに

文章を元の順序通りに推定する研究のひとつである 伊藤らの研究[1]では, 段落単位での類似性に着目し, 順序推定において段落全体の類似性を素性として用いている. しかし,段落間の最後の文と最初の文の類似性である, 段落間の隣接する近辺の細かな情報は用いていないという問題がある. 段落間の隣接する近辺の細かな情報も用いることで 段落の順序推定がしやすくなると考え, 本研究では, 機械学習に基づく段落の順序推定に, 本研究では段落間の隣接する近辺の細かな情報として, 段落間の最後の文と最初の文に着目し, 伊藤らの素性に拡充する.

段落の順序を推定する実験において, 記事内の連接する全ての2段落における順序推定では, 段落間の隣接する近辺の細かな情報を素性として拡充することにより, 素性を拡充する前(0.60)よりと高い性能(0.64)が得られ, 人手による順序推定の性能(0.66)に大きく近づいた. また,素性の拡充による性能向上がより見られた連接2段落対の順序推定の場合に対し, 分離平面との距離に基づく素性分析を行った. 人手で検討した結果, 推定対象の段落間の各文内の単語の共起数を用いた素性や 推定対象の各段落と以前の段落との段落間の単語の共起数を用いた素性が 有用な素性として検出された. また,本研究での正解を新聞記事内の元々の順序としたため, どちらの順序でも読みやすい場合を考慮していない. これにより,人手による順序推定,機械学習ともに低い性能となってしまう問題がある. 上記の問題解決のために, 与えられる2段落の順序がどちらでも良い場合に対して 人手で正解を設定することを今後の課題として挙げる.



平成27年3月4日