next up previous contents
次へ: 統計翻訳システム 上へ: soturon 戻る: 表一覧   目次

はじめに

現在,機械翻訳において,対訳データから自動的に翻訳規則を生成し,翻訳を行う統計翻訳が注目されている. 統計翻訳は獲得した翻訳規則を翻訳モデルと言語モデルで管理する. 翻訳モデルは,原言語から目的言語への条件付き確率を計算するモデルである. 言語モデルは,単語の列や文字の列が起こる確率を計算するモデルである. 翻訳モデルは日本語と英語の句対応を管理するフレーズテーブルを用いる. 通常フレーズテーブルは,学習データの日本語文と英語文を自動的に対応付けをして作成する. そのため作成されたフレーズテーブルのカバー率は高いが信頼性は低い. そこで,フレーズテーブルの信頼性を高めるために,人手で作成された辞書の利用が考えられる. 人手で作成された辞書は日本語の句と英語の句との対応の信頼性が高い. そのため,統計翻訳に組み込むことによって,フレーズテーブルの信頼性と翻訳精度が向上するのではないかと考えた.

先行研究として,鏡味らは人手で作成した辞書である鳥バンクを用いた. 鏡味らは,確率を付与した鳥バンクをフレーズテーブルに直接付与することにより,翻訳精度の向上を報告している[2]. また,東江らは人手で作成された辞書として英辞郎を用いた. 東江らは,確率を付与した英辞郎をフレーズテーブルに直接付与することにより,翻訳精度の向上を報告している[4].

しかし,人手で作成された辞書の利用には他にも方法が考えられる.

本研究では人手で作成された対訳フレーズ辞書を用いて,学習データ中の英語フレーズと日本語フレーズをそれぞれ一つのまとまりとした対訳フレーズデータを作成する. 対訳フレーズデータを用いると,人手で作成されたフレーズを含むフレーズテーブルが作成できる. その結果,フレーズテーブルの信頼性が向上し,翻訳精度が向上すると考える.

本研究では,人手で作成された辞書として鳥バンクと英辞郎をそれぞれ用いる. また,単文コーパスと重文複文コーパスに対してそれぞれ,日英統計翻訳と英日統計翻訳を行う. つまり合計8種類の実験を行った.

その結果,人手評価において鳥バンクを用いた提案手法の単文と重文複文の英日翻訳と,英辞郎を用いた提案手法の日英翻訳の重文複文の評価結果はベースラインより優れており,それ以外の翻訳実験はベースラインより劣っているという結果になった.

一方,自動評価において英辞郎を用いた提案手法の全ての実験においてはBLEU,METEORの値がベースラインより向上した. 鳥バンクを用いた提案手法はほとんどの自動評価においてベースラインよりスコアが低くなった.

本論文の構成は以下の通りである. まず,2章で統計翻訳システムの概要を示し,各モデルの学習について述べる. 3章では,先行研究手法,実験環境と翻訳実験結果について述べる. 4章では,本研究の提案手法について述べる. 5章では,実験に用いるデータやツールといった実験環境について述べる. 6章では,提案手法の結果を示す. そして,7章で考察を行い,最後に8章で結論を述べ,まとめる.



平成23年3月23日