next up previous contents
Next: 未知語の翻訳精度に及ぼす影響 Up: 誤り解析 Previous: 利用する対訳文の誤り   Contents


確率値による出力文の選択の誤り


Table 6.17: TDSMTの誤り例(確率値が第一位の翻訳候補文)
142#142



Table 6.18: TDSMTの誤り例(確率値が第三位の翻訳候補文)
143#143


6.17と表6.18に同一の入力文における第1位の翻訳候補文と第3位の翻訳候補文を示す.なお,確率値は対数をとっているため,0に近い値が大きい確率を示す.一方,マイナスの絶対値が大きくなるほど低い確率を示す.

入力文「今年は穀物がどっさりとれた」に対して,表6.17の翻訳候補文が出力された.しかし,表6.17では未知語が正しく翻訳されたとしても完全な翻訳になるのは難しい.一方,表6.18の第三位の翻訳候補文では「どっさり」が「lot(「a lot of」の一部)」と,「穀物」が「grain」と未知語処理された場合,正しい翻訳文となる.表6.18の翻訳候補文は文法構造をくずしておらず,入力文の意味を読み取りやすい翻訳となっている.このため,表6.18を出力文とすることが好ましい.変換テーブルの適用確率は表6.18の翻訳候補文が優っている.しかし,言語モデルの確率は表6.17の翻訳候補文に劣っている.2つの確率の合計値は表6.17の方が優っているため,表6.17の翻訳候補文が出力文に選択された.

現在,言語モデルは出力文に出現した未知語を除いて計算される.つまり,表6.17の出力候補文では「This year a」,表6.18の出力候補文では「This year a of was produced」で計算される.そのため,たくさんの未知語を含む出力文は言語モデルの値が高くなる傾向にある.このため,未知語を多く含む文は最終的な出力文に選ばれやすい傾向にある.また,言語モデルは長い文では,その値が小さくなる傾向にある.そのため,文長に依存しない言語モデルを考案する必要がある.

また,今回の例では,変換テーブルの確率は正しい翻訳に近い表6.18の翻訳候補文の方が高かった.このため,2つの確率値をうまく利用して,出力文を決定する方法を考案する必要がある.



Hiroto Yasuba 2019-05-08