英語の文章の形式段落の推定
Genzelは,英語の文章を段落開始文と非段落開始文を分ける研究を行った[2].
Genzelは,Penn TreebankとWar and Peaceを用いて別々の実験を行い,また様々な小説を無作為に選んで同様の実験を行った.Penn Treebankに含まれる情報を以下に示す.
- テキスト境界
- 各文章の最初の文-1,それ以外の文0として,文章の最初の文は段落となるので最初の文を区別する
- 品詞
- 各品詞について,現在の文とその前の文で発生した回数
- 文章の長さ
- 最初の単語
- 主題タイプ
- 各対象タイプについて,現在の文の対象がこのタイプであるかどうか
- 内部ノード
- cosine
これらの素性を用いてPenn Treebankで実験を行った.段落開始文と非段落開始文を分ける推定精度は,ベースラインの正解率が0.55に対して,Genzelの提案手法の正解率が0.67であった.
また,War and Peaceに含まれる情報を以下に示す.
- 語彙
- 現在の文および前の文の語彙内の各単語についての出現回数
- 文章の長さ
- cosine
- 最初の単語
- 内部ノードの大きさ
これらの素性を用いてWar and Peaceで実験を行った.段落開始文と非段落開始文を分ける推定精度は,ベースラインの正解率が0.63に対して,Genzelの提案手法の正解率が0.78であった.
また,プロジェクト・グーテンベルクから小説を無作為に5つ選んで,War and Peaceを使用して段落開始文と非段落開始文を分ける実験を行った.「3 Musketeers」に対して,段落開始文と非段落開始文を分けた時の推定精度が一番高く,推定精度はベースラインの正解率が0.58に対して,Genzelの提案手法の正解率が0.75であった.