next up previous contents
次へ: 日英統計翻訳システム 上へ: honron 戻る: 表一覧   目次

序論

機械翻訳において,人手で翻訳規則を定義し,翻訳を行うルールベース翻訳が一般的であった. しかし,人手で翻訳規則を定義するには,莫大なコストがかかる.また,言語毎に文法規則が異なるため,多言語への拡張が困難であった. そこで近年では,統計翻訳が主流となっている.統計翻訳では,対訳学習データから自動的に翻訳規則を獲得し,翻訳を行う.統計翻訳の利点として,ルールベース翻訳と比較において低コストであること,また,多言語への拡張が容易であることなどが挙げられる. 本論文では統計翻訳に関する3つの研究を行い,その効果を示す.

それぞれの概要を以下に示す.

1)
パターン翻訳を用いた学習データ増加手法の検討
統計翻訳の翻訳品質は, 学習データとして用いる対訳データの量に依存する[1].しかし,人手で翻訳した高品質な 対訳データの収集には量的な限界があり,作成コストも大きい.特に,日英間における統計翻訳 では,対訳データの不足が大きな問題となっている.

 そこで本研究では,先行研究における単言語データの翻訳に,パターン翻訳を用いる手法を提案する. パターンに適合した場合の翻訳文が高品質であるというパターン翻訳の特徴を活用し,システムにおける翻訳精度の向上を目指す.

2)
句に基づく統計翻訳における未知語処理の1手法
統計翻訳において,翻訳されない単語は未知語として出力される.未知語を減少させるため, 様々な試みが行われている.代表的な手法として,単語辞書などの対訳辞書データをパラレルコーパス に追加する手法がある[2].しかし,この手法では,単語辞書などのパラレルコーパス以外のリソースが必要となる.

 そこで本研究では,パラレルコーパスのみを利用して,未知語を削減する方法を提案する. 統計翻訳では,単語列から単語列の翻訳確率をフレーズテーブルと呼ばれる表で管理する. フレーズテーブルは,単語対応からヒューリスティックスを用いて作成される. このフレーズテーブル作成の際に用いるヒューリスティックスにはいくつかの種類が存在するが, あるヒューリスティックスで作成されたフレーズテーブルに存在しないフレーズが,別のヒューリスティックスで作成したフレーズテーブルに存在する場合がある.したがって,異なるヒューリスティックスを用いたフレーズテーブルを併用することで,未知語が削減できる可能性がある.

本研究では,ヒューリスティックスとして``grow-diag-final-and"と``intersection"を併用することで,未知語の削減と翻訳精度の改善を目指す.

3)
統語的タグを用いた統計的階層句機械翻訳
従来の統計翻訳では,翻訳過程において統語的情報を用いていない.そのため,日本語と英語のような言語構造が大きく異なる言語間の翻訳において高い翻訳精度が得られない場合が多い.この問題に対して,様々な研究が行われている.

 大西らは,文書レベルの文脈情報を用いてフレーズの並び替えを制限する手法を提案し,有意な成果を得た[3].また,Zollmannらは統語的情報を用いた機械翻訳システムを提案し,公開している[4].しかし,統語的情報を用いた機械翻訳の問題点として,統語ラベルの爆発的増加による,解析および翻訳時間の増加が挙げられる.

 そこで本研究では,日英統計的階層句機械翻訳において,`浅い'統語的情報を用いる手法を提案する.浅い統語的情報として,日本語文の名詞句と動詞句にタグを付与する.タグを付与した日本語文を用いて学習することで,統語的情報を含む文法規則が生成され,翻訳精度が向上すると考えられる.

本論文の構成を以下に示す.第2章で従来の日英統計翻訳システムの概要について述べる.第3章でシステムの評価手法について説明する.そして,第4章,第5章,第6章で3つの研究それぞれについて述べる. 最後に,第7章で3つの提案手法についてまとめる.



平成25年2月12日