next up previous contents
次へ: 目次 上へ: soturon 戻る: soturon   目次

概要

統計翻訳は翻訳の際に翻訳モデルと言語モデルを用いる. 翻訳モデルは日本語の句と英語の句との対応をフレーズテーブルで管理している. フレーズテーブルは,学習データの日本語文と英語文を自動的に対応付けをして作成する. そのため作成されたフレーズテーブルのカバー率は高いが信頼性は低い. フレーズテーブルの信頼性を高めるためには,句対応の信頼性が高い人手で作成された対訳フレーズ辞書の利用が考えられる.

先行研究として鏡味らは,人手で作成した対訳フレーズ辞書である鳥バンク[1]を直接フレーズテーブルに追加し,翻訳精度が向上したことを報告している[2]. また,東江らは,人手で作成した対訳フレーズ辞書である英辞郎[3]を直接フレーズテーブルに追加し,翻訳精度が向上したことを報告している[4].

そこで,本研究では人手で作成された対訳フレーズ辞書を用いて,学習データ中の英語フレーズと日本語フレーズをそれぞれ一つのまとまりとした対訳フレーズデータを作成する. 対訳フレーズデータを用いると,人手で作成されたフレーズを含むフレーズテーブルが作成できる. その結果,フレーズテーブルの信頼性が向上し,翻訳精度が向上すると考える. 本研究では提案手法で作成したフレーズテーブルを用いて単文コーパスと重文複文コーパスに対してそれぞれ,日英統計翻訳と英日統計翻訳を行った.

その結果,人手評価において鳥バンクを用いた提案手法の単文と重文複文の英日翻訳と,英辞郎を用いた提案手法の日英翻訳の重文複文の評価結果はベースラインより優れており,それ以外の翻訳実験はベースラインより劣っているという結果になった.

一方,自動評価において英辞郎を用いた提案手法の全ての実験においてはBLEU,METEORの値がベースラインより向上した. 鳥バンクを用いた提案手法はほとんどの自動評価においてベースラインよりスコアが低くなった.

結果から,ほとんどの実験において提案手法はベースラインより劣っていた. しかし鳥バンクを用いた提案手法は英日統計翻訳において有効であることが確認できた.



平成23年3月23日