新聞記事を用いた実験では,学習データに2007年の毎日新聞(文間数2,500,5,000,10,000),テストデータに2008年の毎日新聞(文間数10,000)のデータを用いて実験を行った.テストデータの各段落における文数を表したヒストグラムを図4.1に,テストデータの分類先の頻度を表4.2に,結果を表4.3に示す.
正解率 | |||
素性 | 2,500 | 5,000 | 10,000 |
55#55 | 0.6866 | 0.6900 | 0.6905 |
55#55+60#60 | 0.6894 | 0.6913 | 0.6919 |
55#55+63#63 | 0.6907 | 0.6928 | 0.6935 |
55#55+65#65 | 0.7384 | 0.7428 | 0.7430 |
58#58 | 0.6857 | 0.6930 | 0.6959 |
58#58+65#65 | 0.7486 | 0.7594 | 0.7644 |
59#59 | 0.6813 | 0.6898 | 0.6956 |
59#59+65#65 | 0.7484 | 0.7556 | 0.7628 |
ベースライン | 0.6743 |
新聞記事で段落分割を行った結果,段落分割の推定精度はベースラインの正解率が0.6743に対して,65#65に関する素性以外で考えると,学習データが文間数10,000の58#58の正解率0.6959が最も高い数値であった.表4.3の結果をもとに,「ベースラインは正解であるが提案手法は不正解であった分割箇所」の数と,「ベースラインは正解であるが提案手法は不正解であった分割箇所」の数と「ベースラインは不正解であるが提案手法は正解であった分割箇所」の数の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.有意差検定で得たp値を表4.4に示す.
表4.4より,それぞれの素性は全てベースラインの正解率と有意差があった.
また文間数10,000の55#55の正解率0.6905と,表4.3より55#55のみを除くそれぞれの文間数10,000の正解率に対して,「55#55は正解であるが提案手法は不正解であった分割箇所」の数と,「55#55は正解であるが提案手法は不正解であった分割箇所」の数と「55#55は不正解であるが提案手法は正解であった分割箇所」の合計数を用い,二項分布に基づく有意水準0.05の符号検定(片側検定)を行った.有意差検定で得たp値を表4.5に示す.
表4.5より,65#65の段落情報追加を含む素性以外有意差がなかった.しかし,55#55+63#63のp値は有意差はないが,0.05にかなり近い.
また表4.3より,ベースラインと比較すると最も数値の差が大きい58#58+65#65は,ベースラインより0.0901大きい.しかし,他に全単語と以外で追加した60#60と63#63は追加前と比較すると推定精度は向上しているが,数値はほとんど変わらない.
表4.3より,他の手法と比べて65#65の段落情報の追加での正解率がかなり高い理由は,直前直後の正確な段落有無が分かっているからである.図4.1より新聞記事の場合2,3文に1つ段落があることが分かる.もし文間箇所の直前の文頭に段落がある場合,文間箇所は段落ではない可能性が高いと容易に考えられる.