next up previous contents
次へ: 日英パターン翻訳システム 上へ: soturon 戻る: 表一覧   目次

はじめに

機械翻訳の歴史は文法規則や変換規則などを用いて翻訳を行うルールベース翻訳 から始まる.そして1960年代半ばに,大量の翻訳対から作成した文パターン辞書 を用いて翻訳を行うパターン翻訳が提案される.パターン辞書は人手で作成する ので,開発に時間がかかる[1]が,文パターンに適合した場合に翻訳 精度の高い翻訳文が得られる.1990年代前半に「語に基づく統計翻訳」が提案さ れたが,翻訳精度が低くあまり研究がされなかった.しかし,2000年の初めに 「句に基づく統計翻訳[2]」が提案され,「語に基づく統計翻訳」と 比べて翻訳精度が高いことから,現在,機械翻訳において統計翻訳が主流となっ ている.統計翻訳では,一般にN-gramモデルを文法情報として用いる. N-gramモデルは局所的な文法情報であるため,文法構造の似た言語間 では翻訳精度が高い.しかし,日本語と英語のように文法構造が異なる言語間で は特異な文が生成される可能性がある.過去に,日本語の動詞を主語の後ろに移 動し文法構造を変換する研究[3]がされているが翻訳精度はあまり向 上していない.

そこで本研究では,まず日英文パターン辞書を用いて日英パターン翻訳を行い, 文法構造を英語に近づける.この日英文パターンが持つ大局的な文法情報を用い ることでN-gramモデルにおける局所的な構文問題が解消でき,翻訳精度の 向上が可能であると考えた.そして出力文に対し,統計翻訳でさらに英英翻 訳を行う.この処理により,局所的な修正を行うことで翻訳精度が向上すると考 えた.実験の結果,従来の日英統計翻訳システムと比べて提案手法のシステムで は,文パターンの文法情報が多く残されている場合に翻訳精度が高く,有効性が 確認出来た.この場合での自動評価結果はBLEU値で0.5%,METEOR値では0.08%, NIST値で0.116の翻訳精度の向上が見られた.しかし文パターンの文法情報 が損なわれている場合には翻訳精度が低下することがわかった.この場合での自 動評価結果はBLEU値で0.4%,NIST値で0.095の翻訳精度の低下が見られた.

本論文の構成は以下の通りである.第2章で従来の日英パターン翻訳 システムについて説明し,第3章で従来の日英統計翻訳システムにつ いて説明し,第4章では本研究で提案する翻訳システムについて 説明する.第5章で実験環境を示し,第6章で翻訳実験を述 べ,第7章で実験結果を示し,第8章で本研究の考察を述べ る.



平成22年2月11日