小説の素性

小説で段落分割を行った際に,段落分割するか否かの判断に用いられた素性が得られた.文間箇所の直前の文にある素性によって段落の分割,非分割に影響を与えた素性と,その正規化α値と素性が入っている文と,その後の文を表5.3に示す.文間箇所の直後の文にある素性によって段落の分割,非分割に影響を与えた素性と,その正規化α値と,素性が入っている文とその前の文を表5.4に示す.表に示す正規化α値は,値が大きいほど段落分割の推定に役立ち,値が小さいほど非段落分割の推定に役立つ.


Table 5.3: 小説の素性

134#134




Table 5.4: 小説の素性

135#135



小説に対して,最大エントロピー法での分割に関する素性分析では,表5.3より文間箇所の前の文章中に「どうしても」や「——」がある時,文間箇所は分割位置だと判断している.また表5.4より,文間箇所の後の文章の文頭に「やがて」,「それから」などが出現すると分割と判断している.

非分割では表5.3,表5.4より文間箇所の前の文章に逆接の意味をもつ接続詞「ところが」があると2文章同じ内容が続くことが多く,文間箇所は非分割である考える.また「ところが」と同じ逆接の意味の「しかし」が後の文章にあると,「しかし」から始まる文章は1文で終わることが多く,「しかし」の前の文間箇所が非分割であると判断している.

新聞記事での直前の文章中の「ところが」,直後の文章中の「しかし」について調べた.表5.5に示す.



Table 5.5: 「ところが」,「しかし」の新聞記事の頻度
  新聞記事での頻度
単語 分割 非分割
ところが 2 15
しかし 35 93

5.5より,直前の文章中の「ところが」があるときの文間箇所,直後の文章中の「しかし」があるときの文間箇所はともに非分割の頻度が高い.