提案手法(類似度の利用)
本研究は誤った変換テーブルの削除を目的とする.
変換テーブルはAとCやBとDの置き換えを想定している.
誤った変換テーブルはAとCやBとDの文中での置き換えが可能でない場合が多い.
さらに類似度が高い単語及び句は置き換え可能性が高いと考える.
そこで本手法は,AとCやBとDの類似度を閾値として誤った変換テーブルを削除する.
本研究において,類似度とは前後単語の一致度と定義する.
類似度の計算は学習文中における単語や句の前後の単語を利用する.
以下は提案手法の手順である.手順3までは従来行われていた枝刈り手法である.
なお, 変換テーブルの枝刈りは2.3.4節で述べたABCDテーブルを対象とし, 提案手法を行なう.
- 手順1
- AとB,CとDの対訳単語確率を計算する
- 手順2
- 得られた対訳単語確率をもとに順位をつける
- 手順3
- 任意の対訳単語確率の順位を閾値として閾値を超えた変換テーブルを削除する
- 手順4
- AとC,BとDの類似度を計算する
- 手順5
- 任意の類似度の値値を閾値として閾値を超えた変換テーブルを削除する
Subsections