next up previous contents
次へ: b25:素性b24の値と推定する2段落を入れ替えた場合の素性b24の値との比率 上へ: 提案手法に用いる素性 戻る: b23:素性b22の値と推定する2段落を入れ替えた場合の素性b22との比率   目次

b24:段落内の単語の出現位置を用いた場合における1段落目に出現する単語と2段落目に出現する単語の一致した数

1段落目に出現する単語と2段落目に出現する単語の一致した数を素性と用いており,またこの素性は出現した単語の位置が組み込まれている.まず1段落目と2段落目との間に境界線を敷く.その境界線を1とし境界線から遠ざかるほど値が低くなるよう1段落目の最初と2段落目の最後を0と設定する(図5.13,図5.14).各段落内の単語に境界線からどの位置に存在するかを表す値(以下,距離値とする)を算出し,単語に付与する. 1段落目に出現する単語Aと2段落目に出現する単語Bが単語一致した場合, `` $ 単語Aに付与された距離値*単語Bに付与された距離値$ '' により算出された値をスコアとし,単語一致するごとに加算する. 総加算のスコアXを素性として用いる. また,1,2段落内で一致する単語の複数の共起が見られた場合, その単語の距離値の総和を共起の組数で割った値とする.

また,求められた値:Xがどの辺に属するか,同様に区間を設ける. Xが,0以上,0.5以上,1以上,1.5以上を0.5ずつ増加し最大10まで, 0以上0.5未満,0.5以上1未満,1以上1.5未満を0.5ずつ増加し最大10までの範囲で場合わけとする. データ内では,「一致数:X」または「区間:X〜X+0.5」として 素性を組み込んでいる5.13

図: 段落内における単語番号の図示
\includegraphics[width=11cm]{show4.eps}

図: 境界線の設定
\includegraphics[width=11cm]{show5.eps}



平成27年3月4日