英語の文章の形式段落の推定

Genzelは,英語の文章を段落開始文と非段落開始文を分ける研究を行った[2].

Genzelは,Penn TreebankとWar and Peaceを用いて別々の実験を行い,また様々な小説を無作為に選んで同様の実験を行った.Penn Treebankに含まれる情報を以下に示す.

これらの素性を用いてPenn Treebankで実験を行った.段落開始文と非段落開始文を分ける推定精度は,ベースラインの正解率が0.55に対して,Genzelの提案手法の正解率が0.67であった.

また,War and Peaceに含まれる情報を以下に示す.

これらの素性を用いてWar and Peaceで実験を行った.段落開始文と非段落開始文を分ける推定精度は,ベースラインの正解率が0.63に対して,Genzelの提案手法の正解率が0.78であった.

また,プロジェクト・グーテンベルクから小説を無作為に5つ選んで,War and Peaceを使用して段落開始文と非段落開始文を分ける実験を行った.「3 Musketeers」に対して,段落開始文と非段落開始文を分けた時の推定精度が一番高く,推定精度はベースラインの正解率が0.58に対して,Genzelの提案手法の正解率が0.75であった.