次へ: b25:素性b24の値と推定する2段落を入れ替えた場合の素性b24の値との比率
上へ: 提案手法に用いる素性
戻る: b23:素性b22の値と推定する2段落を入れ替えた場合の素性b22との比率
目次
1段落目に出現する単語と2段落目に出現する単語の一致した数を素性と用いており,またこの素性は出現した単語の位置が組み込まれている.まず1段落目と2段落目との間に境界線を敷く.その境界線を1とし境界線から遠ざかるほど値が低くなるよう1段落目の最初と2段落目の最後を0と設定する(図5.13,図5.14).各段落内の単語に境界線からどの位置に存在するかを表す値(以下,距離値とする)を算出し,単語に付与する.
1段落目に出現する単語Aと2段落目に出現する単語Bが単語一致した場合,
``
''
により算出された値をスコアとし,単語一致するごとに加算する.
総加算のスコアXを素性として用いる.
また,1,2段落内で一致する単語の複数の共起が見られた場合,
その単語の距離値の総和を共起の組数で割った値とする.
また,求められた値:Xがどの辺に属するか,同様に区間を設ける.
Xが,0以上,0.5以上,1以上,1.5以上を0.5ずつ増加し最大10まで,
0以上0.5未満,0.5以上1未満,1以上1.5未満を0.5ずつ増加し最大10までの範囲で場合わけとする.
データ内では,「一致数:X」または「区間:X〜X+0.5」として
素性を組み込んでいる5.13.
平成27年3月4日