next up previous contents
次へ: b29:素性b28の値の比率 上へ: 提案手法に用いる素性 戻る: b27:素性b26の値の比率   目次

b28:以前の段落に出現する単語と推定する各段落に出現する単語の一致した数

推定する2段落以前の段落に出現する単語と推定する各段落に出現する単語の一致した数を素性としている. この素性は素性b24同様,出現した単語の位置情報が組み込まれている.まず1段落目と2段落目との間に境界線を敷く. その境界線を1とし境界線から遠ざかるほど値が低くなるよう1段落目の最初と2段落目の最後を0と設定する(図5.16). 各段落内の各単語における距離値を算出し,単語に付与する. 1段落目に出現する単語Aと2段落目に出現する単語Bが単語一致した場合, `` $ 単語Aに付与された距離値*単語Bに付与された距離値$ '' により算出された値をスコアとし,単語一致するごとに加算する. 総加算のスコアXを素性として用いる. また,1,2段落内で一致する単語の複数の共起が見られた場合, その単語の距離値の総和を共起の組数で割った値とする.

また,求められた値:Xがどの辺に属するか,同様に区間を設ける. Xが,0以上,0.5以上,1以上,1.5以上を0.5ずつ増加し最大10まで, 0以上0.5未満,0.5以上1未満,1以上1.5未満を0.5ずつ増加し最大10までの範囲で場合わけとする. データ内では,「P一致数:X」または「P区間:X〜X+0.5」として 素性を組み込んでいる5.17

図: 単語番号の図示と境界線の設定
\includegraphics[width=9cm]{show7.eps}



平成27年3月4日