入力文 | 米国 は 4つ の 時間 帯 に またがっ て いる 。 |
従来手法 | The United States is straddling the range of four hours . |
提案手法 | I can The United States is straddling the four hours . |
ここで,従来手法の出力文が用いたフレーズ対と提案手法の出力文が用いたフレー ズ対を表に示す.
従来手法が用いたフレーズ対 | 提案手法が用いたフレーズ対 |
米国 は The United States | 米国 は The United States |
4つ の of four | 4つ の the four |
時間 hours | 時間 hours |
帯 range | 帯 に I can |
に the | またがっ て いる is straddling |
またがっ て いる is straddling | |
。 . |
提案手法において,文節区切りフレーズテーブルのフレーズ対``帯 に I can''は不適切である.
フレーズテーブルの学習において,日本語の単語と英語の単語の対応関係の精度 は,単語の出現頻度に依存する.文節区切りの学習データは,助詞や接尾辞を統 合しているため,単語の出現頻度は低下する.例えば,統合した単語``山-へ'' と``山-に''は別の単語として扱われる.そのため,出現頻度の少ない単語が多 く,学習の精度が低下する可能性がある.
統計翻訳では,フレーズ対の確率はフレーズの出現頻度を考慮していない.本手 法の文節区切りの学習データのように各単語の出現頻度が少ない学習データを用 いる場合,学習時にフレーズの出現頻度を考慮した確率付けを行う必要がある と考えている.