機械学習を用いた英語,ドイツ語,ギリシャ語の文章の形式段落の推定

Carolineらは，テキスト，構文，談話のてがかりの3つに着目して，教師あり機械学習を用いて段落の境界を自動的に予測できるかどうかを調べた[3]．

Carolineらは，BoosTexterを機械学習システムとして使用し，英語，ドイツ語，ギリシャ語の3ヶ国語の小説，報道，議事についての3つの分野からそれぞれコーパスを作成して実験を行った．使用した機能は非構文機能，言語モデリング機能，構文機能の3つで構文機能は英語にしか適用されなかった．これらの機能を用いて，段落の境界を自動的に予測する研究を行った．

3ヶ国語の実験結果のうちベースラインとの正解率の差が大きかったものを挙げると，英語では報道に関するコーパスを用いた段落の境界の推定精度が高かった．段落の境界の推定精度はベースラインの正解率が0.51に対して，Carolineらの手法では正解率が0.71であった．またドイツ語では議事に関するコーパスを用いた段落の境界の推定精度が高かった．段落の境界の推定精度はベースラインの正解率が0.66に対して，Carolineらの手法では0.79であった．またギリシャ語では報道に関するコーパスを用いた段落の境界の推定精度が高かった．段落の境界の推定精度はベースラインの正解率が0.53に対して，Carolineらの手法では0.76であった．