次へ: a6:2段落目に出現する名詞の数から1段落目と2段落目に出現する名詞が一致した数で引いた数
上へ: 提案手法に用いる素性
戻る: a4:段落内に日付けが出現するか否か
目次
段落間は似通っているほど,文章の繋がりから読みやすいとされ,また
段落内には名詞が多く出現する.
このことから名詞の一致数に着目する素性を作成する.
推定する2段落の一方に出現する名詞ともう一方に出現する名詞の共起数Xを求め,
その値が,0以上,1以上,2以上,3以上を最大値10まで,
0以上2未満,2以上4未満,4以上6未満を2ずつ増加し最大値8までの区間で場合わけしたものを素性とする.
また,素性a8は素性a2の前部に出現する名詞を用いることのみ,素性a5と異なるだけであるため説明を省略する.
データ内では,「LR類似数L○:X (以上)」や「LR類似数L○:X-1〜X+1(X-1からX+1の区間)」として素性を組み込んでいる5.5.
図5.5では,
各段落それぞれに出現した名詞を示す.
段落Aと段落Bの名詞の共起数(7)を求め,
その値を場合わけし素性として組み込む.
平成27年3月4日