next up previous contents
次へ: 統計翻訳システム 上へ: soturon 戻る: 表一覧   目次

はじめに

現在,機械翻訳において,対訳データから自動的に翻訳規則を生成し,翻訳を行 う統計翻訳が注目されている.統計翻訳は,獲得した翻訳規則を言語モデルと翻 訳モデルで管理する.言語モデルは,単語の列や文字の列が起こる確率を与える モデルである.翻訳モデルは,英語の単語の列から単語の列へ確率的に翻訳を行うためのモデルである.翻訳モデルには,主に単語に基づくモデルと句に基づくモデルが ある.単語に基づくモデルは,単語の対応作成時に,対応がない単語にはNULLを 対応させる.その結果,単語に基づくモデルにおける翻訳精度の低下を起こす. 一方,句に基づくモデルは,単語に基づくモデルより,訳語の選択能力や局所的 な語の並べ替え能力の高い,句に基づく翻訳モデル[1]が現在の主流になっている.

句に基づく翻訳モデルは,プログラムで自動作成されるフレーズテーブルと呼ば れる表で管理されている.句に基づくモデルは,句の対応をとるため,単語に基 づくモデルで使用されていたNULLは使用しない.フレーズテーブルはプログラム により自動作成されるため,カバー率は高いが,信頼性は低い.先行研究 [2]に,人手で作成したフレーズ対をフレーズテーブルに追加し,翻訳 精度の向上が確認された.しかし,先行研究では,人手で作成したフレーズ 対の総数が少ないため,フレーズテーブルの増加量が少ない.

そこで,本研究では,翻訳対の総数が多い``英辞郎[3]''を利用し, フレーズテーブルの増加量を多くすることにより,翻訳精度の向上を試みた.そ の結果,BLEU値が単文では0.3%,重文複文では0.2%向上した.結果から,``英 辞郎''で作成した翻訳対を追加した提案手法は有効であることが示された.

2章で,統計翻訳システムの概要を示し,各部分の説明を行う.3章で,実験環境 の説明を行う.4章で,``英辞郎''で作成した翻訳対を,プログラムで作成した フレーズテーブルに追加する手順を説明する.5章で提案手法を用いた時の翻訳 実験の結果を示す.6章で,考察を示す.最後に7章で結論を述べ,まとめる.



平成22年2月13日