next up previous contents
Next: 手法の改善 Up: 誤り解析 Previous: 利用する対訳文の誤り   Contents


確率値による出力文の選択の誤り


Table 6.18: TDSMTの誤り例(確率値が第一位の翻訳候補文)
120#120



Table 6.19: TDSMTの誤り例(確率値が第2位の翻訳候補文)
121#121


6.18と表6.19に同一の入力文における第一位の翻訳候補文と第二位の翻訳候補文を示す.なお,確率値は対数をとっているため,0に近い値が大きい確率を示す.一方,マイナスの絶対値が大きくなるほど低い確率を示す.

入力文「あいつはいつも不平ばかり言っている」に対して,表6.18の翻訳候補文が出力された.しかし,表6.18では「あいつ」が「he's」と翻訳され,英語の文法にあわない.一方,表6.19の第二位の翻訳候補文では「あいつ」が「That guy」に翻訳され,文法構造をくずしておらず,入力文の意味を読み取りやすい翻訳となっている.このため,表6.19を出力文とすることが好ましい.しかし,言語モデルの確率,変換テーブルの適用確率ともに表6.18の翻訳候補文に劣っている.そのため,表6.18の翻訳候補文が出力文に選択された.

言語モデルは現在``high order joint probability"を採用している.この言語モデルは目的言語の言語モデルの構築に原言語文と目的言語文を利用する.そのため,出力候補文の言語モデルを計算するために入力文を利用する.そのため,「He's」のような対訳文中に大量に存在する単語はモデル構築の上で,確率値が高くなりやすい.このため,表6.19と比較して,表6.18の言語モデルの方が言語モデルの値が高くなったとかんがえられる.

変換テーブルの適用確率はIBM model1の単語翻訳確率をもとに対訳文中の単語の出現頻度や共起頻度をもとに推定される.そのため,言語モデルの場合と同様に,人称代名詞のような対訳文中の頻度の高い単語を含む変換テーブルは適用確率が大きくなりやすい.このため,表6.19と比較して,表6.18の変換テーブルの適用確率の値が高くなったとかんがえられる.

言語モデルの計算方法,変換テーブルの適用確率の計算方法をより最適なものにする必要がある.また,2つの確率値をうまく利用して,出力文を決定する方法を考案する必要がある.



Hiroto Yasuba 2019-05-08