next up previous contents
次へ: a21:1段落目と2段落目に出現する新規単語の比率 上へ: 提案手法に用いる素性 戻る: a12:推定する2段落以前の段落と1,2段落目に出現する名詞が一致した数   目次

a20:1段落目と2段落目に出現する新規単語の数の差

話が変わると,今まで出てこなかった単語が初めて出現することが多い. このことから,初めて出現する単語(新規単語)の数を求め, 推定する2段落のうち,より新規単語の数が多い段落を 後の段落になりやすいように素性として用いる. 新規単語の条件は以前の段落には出現していないもののみとする.

推定する2段落以前の文章に対して, 1段落目(または2段落目)に出現する新規単語の数X(またはY)を求める. X-Yを行い,その値が0未満か,0より大(超過)かを示す素性を付与する. ここで用いる品詞は素性a1同様,名詞,形容詞,形容動詞,動詞,副詞,連体詞,接続詞とする. データ内では,「LR新規:0超過」または「LR新規:0未満」として 素性を組み込んでいる5.9

5.9のように, 以前の段落と推定段落A,Bが与えられたとする. 以前の段落と各段落との単語の共起数をそれぞれ求め(4),(3), その値から以前の段落に対し各段落にのみ出現する単語の数を求める(14),(26). 求められた2つの値の差によって得られた値(12)を場合わけし素性として組み込む.

図: a20の説明図
\includegraphics[width=15cm]{a20.eps}



平成27年3月4日