next up previous contents
次へ: 関連研究 上へ: master 戻る: 表一覧   目次

はじめに

国際化が進む現代社会において,言語の違いはコミュニケーションの大きな障害 となっている.そのため,他言語間のコミュニケーションを容易にする,機械 翻訳の技術の必要性が高まっている.従来のルールベース法を用いた機械翻訳方式で は,1つの言語間の翻訳システムを作るために,長い時間をかけて翻訳規則を構 築する必要がある.また,言語によって,文法規則が異なるため,多言語への 拡張が難しい.そこで,現在,対訳データから自動的に翻訳規則を獲得し,翻訳 を行う統計翻訳が注目されている.統計翻訳は,対訳データがあれば翻 訳規則を構築できるため,短い時間で翻訳システムを構築でき,多言語への拡張 が容易である.

日英統計翻訳において,日本語文は複数のフレーズ対を用いてフレーズ単位で変 換される.そして,そのフレーズの順序を並び替え,英語文に翻訳される.しか し,重文複文といった複雑な日本語文を翻訳する場合,多くのフレーズ対が必要 となる.そのため,フレーズの並び替えの候補数が膨大になり,翻訳精度が低く なる傾向がある[2].

そこで本研究では,長いフレーズを持つフレーズ対を増やすことで,出力文が利 用するフレーズ対の数を減らし,並び替えの候補を減らす手法を提案する.具体 的には,3種類の学習データから生成されたフレーズテーブルをそれぞれ従来の単 語区切りフレーズテーブルと併用し,翻訳精度の向上を目指す.1つ目は,「日 本語文を文節区切り,英語文を単語区切りとした学習データ」から生成 されたフレーズテーブル.2つ目は,「日本語文を単語区切り,英語 文をフレーズ単位に統合した学習データ」から生成されたフレーズテーブル.そして, 3つ目は,「日本語文を文節区切り,英語文をフレーズ単位に統合し た学習データ」から生成されたフレーズテーブルである.また,3つのフレーズテー ブルを全て併用した場合の翻訳実験も行う.

実験の結果,従来手法と比較して,BLEUスコアが単文で0.43%,重文複文で0.38%向上した. また,同等の手法を学習データの英語文に対して適用した場合の実験も行った. 英語文に適用した場合も,従来手法と比較して,翻訳精度が向上した.さらに, 従来手法のフレーズテーブルと提案手法により得られた3つのフレーズテーブル を併用した実験も行った.4つのフレーズテーブルを用いた場合,従来手法と比 較して,BLEUスコアが単文の翻訳で0.71%,重文複文の翻訳で0.51%向上した.

本論文の構成は以下の通りである.まず,2章で日英統計翻訳についての概要を 示し,各モデルの学習について述べる.3章では本研究の提案手法について 述べる.4章では実験に用いるデータやツールといった実験環境について述べる. 5章では,提案手法の効果を示す.6章では,提案手法を学習データの英語文に適 用した場合の効果を示す.7章では,本研究で生成したフレーズテーブルを全て 併用した場合の効果を示す.そして,8章で,考察を行い,最後に9章で結論を述べ, まとめる.



Subsections

平成22年2月17日