next up previous contents
次へ: 組合せの問題 上へ: 提案手法において翻訳精度が低下した文の解析 戻る: 単語区切りフレーズ対の問題   目次


文節区切りフレーズ対の問題

「文節区切りフレーズ対の問題」は,「翻訳に用いた文節区切りフレーズテーブ ルのフレーズ対が不適切であるため,翻訳精度が低下した文」である.提案手法 において翻訳精度が低下した18文中に,単文の翻訳結果で2文,重文複文の翻訳 結果で1文あった.例を以下に示す.

入力文 米国 は 4つ の 時間 帯 に またがっ て いる 。
従来手法 The United States is straddling the range of four hours .
提案手法 I can The United States is straddling the four hours .

ここで,従来手法の出力文が用いたフレーズ対と提案手法の出力文が用いたフレー ズ対を表[*]に示す.


表: 出力文が用いたフレーズ対(文節区切りフレーズ対の問題)
従来手法が用いたフレーズ対 提案手法が用いたフレーズ対
米国 は $ \vert\vert\vert$ The United States 米国 は $ \vert\vert\vert$ The United States
4つ の $ \vert\vert\vert$ of four 4つ の $ \vert\vert\vert$ the four
時間 $ \vert\vert\vert$ hours 時間 $ \vert\vert\vert$ hours
$ \vert\vert\vert$ range 帯 に $ \vert\vert\vert$ I can
$ \vert\vert\vert$ the またがっ て いる $ \vert\vert\vert$ is straddling
またがっ て いる $ \vert\vert\vert$ is straddling  
$ \vert\vert\vert$ .  

提案手法において,文節区切りフレーズテーブルのフレーズ対``帯 に $ \vert\vert\vert$ I can''は不適切である.

フレーズテーブルの学習において,日本語の単語と英語の単語の対応関係の精度 は,単語の出現頻度に依存する.文節区切りの学習データは,助詞や接尾辞を統 合しているため,単語の出現頻度は低下する.例えば,統合した単語``山-へ'' と``山-に''は別の単語として扱われる.そのため,出現頻度の少ない単語が多 く,学習の精度が低下する可能性がある.

統計翻訳では,フレーズ対の確率はフレーズの出現頻度を考慮していない.本手 法の文節区切りの学習データのように各単語の出現頻度が少ない学習データを用 いる場合,学習時にフレーズの出現頻度を考慮した確率付けを行う必要がある と考えている.



平成22年2月17日