入力文 | 米国 は 4つ の 時間 帯 に またがっ て いる 。 |
従来手法 | The United States is straddling the range of four hours . |
提案手法 | I can The United States is straddling the four hours . |
ここで,従来手法の出力文が用いたフレーズ対と提案手法の出力文が用いたフレー
ズ対を表に示す.
従来手法が用いたフレーズ対 | 提案手法が用いたフレーズ対 |
米国 は ![]() |
米国 は ![]() |
4つ の ![]() |
4つ の ![]() |
時間 ![]() |
時間 ![]() |
帯 ![]() |
帯 に ![]() |
に ![]() |
またがっ て いる ![]() |
またがっ て いる ![]() |
|
。![]() |
提案手法において,文節区切りフレーズテーブルのフレーズ対``帯 に
I
can''は不適切である.
フレーズテーブルの学習において,日本語の単語と英語の単語の対応関係の精度 は,単語の出現頻度に依存する.文節区切りの学習データは,助詞や接尾辞を統 合しているため,単語の出現頻度は低下する.例えば,統合した単語``山-へ'' と``山-に''は別の単語として扱われる.そのため,出現頻度の少ない単語が多 く,学習の精度が低下する可能性がある.
統計翻訳では,フレーズ対の確率はフレーズの出現頻度を考慮していない.本手 法の文節区切りの学習データのように各単語の出現頻度が少ない学習データを用 いる場合,学習時にフレーズの出現頻度を考慮した確率付けを行う必要がある と考えている.