次へ: 関連研究 上へ: master 戻る: 表一覧目次

はじめに

国際化が進む現代社会において，言語の違いはコミュニケーションの大きな障害となっている．そのため，他言語間のコミュニケーションを容易にする，機械翻訳の技術の必要性が高まっている．従来のルールベース法を用いた機械翻訳方式では，1つの言語間の翻訳システムを作るために，長い時間をかけて翻訳規則を構築する必要がある．また，言語によって，文法規則が異なるため，多言語への拡張が難しい．そこで，現在，対訳データから自動的に翻訳規則を獲得し，翻訳を行う統計翻訳が注目されている．統計翻訳は，対訳データがあれば翻訳規則を構築できるため，短い時間で翻訳システムを構築でき，多言語への拡張が容易である．

日英統計翻訳において，日本語文は複数のフレーズ対を用いてフレーズ単位で変換される．そして，そのフレーズの順序を並び替え，英語文に翻訳される.しかし，重文複文といった複雑な日本語文を翻訳する場合，多くのフレーズ対が必要となる．そのため，フレーズの並び替えの候補数が膨大になり，翻訳精度が低くなる傾向がある[2]．

そこで本研究では，長いフレーズを持つフレーズ対を増やすことで，出力文が利用するフレーズ対の数を減らし，並び替えの候補を減らす手法を提案する．具体的には，3種類の学習データから生成されたフレーズテーブルをそれぞれ従来の単語区切りフレーズテーブルと併用し，翻訳精度の向上を目指す．1つ目は，「日本語文を文節区切り，英語文を単語区切りとした学習データ」から生成されたフレーズテーブル．2つ目は，「日本語文を単語区切り，英語文をフレーズ単位に統合した学習データ」から生成されたフレーズテーブル．そして， 3つ目は，「日本語文を文節区切り，英語文をフレーズ単位に統合した学習データ」から生成されたフレーズテーブルである．また，3つのフレーズテーブルを全て併用した場合の翻訳実験も行う．

実験の結果，従来手法と比較して，BLEUスコアが単文で0.43%，重文複文で0.38%向上した．また，同等の手法を学習データの英語文に対して適用した場合の実験も行った．英語文に適用した場合も，従来手法と比較して，翻訳精度が向上した．さらに，従来手法のフレーズテーブルと提案手法により得られた3つのフレーズテーブルを併用した実験も行った．4つのフレーズテーブルを用いた場合，従来手法と比較して，BLEUスコアが単文の翻訳で0.71%，重文複文の翻訳で0.51%向上した．

本論文の構成は以下の通りである．まず，2章で日英統計翻訳についての概要を示し，各モデルの学習について述べる．3章では本研究の提案手法について述べる．4章では実験に用いるデータやツールといった実験環境について述べる． 5章では，提案手法の効果を示す．6章では，提案手法を学習データの英語文に適用した場合の効果を示す．7章では，本研究で生成したフレーズテーブルを全て併用した場合の効果を示す．そして，8章で，考察を行い，最後に9章で結論を述べ，まとめる．

Subsections

関連研究

平成22年2月17日