文章を元の順序通りに推定する研究として, 伊藤ら[1]の段落の順序推定の研究がある. 機械学習を用いて順序が不明な2段落に対し, どちらが先かを判定し順序推定を行っている. 実験では,記事内最初の2段落のみを用いる場合, 記事内全ての連接した2段落を用いる場合の2種類を考慮し順序推定を行い, 人間に近い性能を得ている. この研究[1]では, 段落単位での類似性に着目し, 順序推定において段落全体の類似性を素性として用いている. しかし,段落間の最後の文と最初の文の類似性である, 段落間の隣接する近辺の細かな情報は用いていないという問題がある. 段落間の隣接する近辺の細かな情報も用いることで 段落の順序推定がしやすくなると考え, そこで, 本研究では段落間の隣接する近辺の細かな情報として, 段落間の最後の文と最初の文に着目し, 伊藤らの素性に拡充していくことで性能向上を目指す.
段落間の隣接する近辺の細かな情報として, 段落間の最後の文と最初の文に着目したものを 素性として伊藤らの素性に拡充し実験を行った結果, 段落の順序を推定する実験において, 記事先頭2段落のみ用いて順序推定を行った場合, 先行研究の素性に新たに素性を拡充した本手法は 人手による順序推定と同等の性能であった. 記事内の全ての連接2段落を用いて順序推定を行った場合, 素性を拡充した本手法が先行研究手法に比べてより高い性能であり, 人手による順序推定に近づく性能であった. 記事内全てから2段落を用いて順序推定を行った場合, 素性を拡充した本手法は先行研究手法に比べてより高い性能であり, 人手による順序推定に近づく性能であった.
また,先行研究手法と本手法及び人手による順序推定の比較により, 性能向上がより見られた連接2段落の場合において, 段落の順序推定にどの素性が有用であるかを検討するために 分離平面との距離に基づく素性分析を行い, 分析結果を人手で検討した結果,10個の有用な素性を検討した.