提案手法(類似度の利用)

本研究は誤った変換テーブルの削除を目的とする. 変換テーブルはACBDの置き換えを想定している. 誤った変換テーブルはACBDの文中での置き換えが可能でない場合が多い. さらに類似度が高い単語及び句は置き換え可能性が高いと考える. そこで本手法は,ACBDの類似度を閾値として誤った変換テーブルを削除する.

本研究において,類似度とは前後単語の一致度と定義する. 類似度の計算は学習文中における単語や句の前後の単語を利用する. 以下は提案手法の手順である.手順3までは従来行われていた枝刈り手法である. なお, 変換テーブルの枝刈りは2.3.4節で述べたABCDテーブルを対象とし, 提案手法を行なう.

手順1
ABCDの対訳単語確率を計算する
手順2
得られた対訳単語確率をもとに順位をつける
手順3
任意の対訳単語確率の順位を閾値として閾値を超えた変換テーブルを削除する
手順4
ACBDの類似度を計算する
手順5
任意の類似度の値値を閾値として閾値を超えた変換テーブルを削除する



Subsections