新聞記事の素性

新聞記事で段落分割を行った際に,段落分割するか否かの判断に用いられた素性が得られた.文間箇所の直前の文にある素性によって段落の分割,非分割に影響を与えた素性と,その正規化α値と素性が入っている文と,その後の文を表5.1に示す.文間箇所の直後の文にある素性によって段落の分割,非分割に影響を与えた素性と,その正規化α値と,素性が入っている文とその前の文を表5.2に示す.また,表に示す正規化α値は,値が大きいほど段落分割の推定に役立ち,値が小さいほど非段落分割の推定に役立つ.


Table 5.1: 新聞記事の素性
132#132



Table 5.2: 新聞記事の素性
133#133


新聞記事に対して,最大エントロピー法での分割に関する素性分析では,表5.1より添加の意味をもつ接続詞「そして」,「そのうえで」が文間箇所の前の文章にあるとき分割と判断している.添加で前の文の付け加えをして,文間箇所の後の文章で話題転換している文章が多いのではないかと考えられる.順接の意味を持つ接続詞「だから」もあり,文間箇所で話題転換をしていることが多いのでないかと考えられる.また表5.2より,列挙の意味をもつ接続詞「まずは」が文間箇所の後の文章にあるとき分割と判断している.

非分割では,表5.1より例示の意味をもつ接続詞「例えば」が文間箇所の前にあるとき,後の文章でも同じ話をしている文章が多いのではないかと考えられる.「伝え」,「供述」といった似た意味の単語が文の終わりに付くと,次の文章も同じ内容のことを話すことが多く,非分割であると考えていると思われる.また表5.2より「そういう」などの前の文章の補足的な意味を示す単語が,文間箇所の後の文書にあるとき,非分割と判断していることが分かった.