それぞれの概要を以下に示す.
そこで本研究では,先行研究における単言語データの翻訳に,パターン翻訳を用いる手法を提案する. パターンに適合した場合の翻訳文が高品質であるというパターン翻訳の特徴を活用し,システムにおける翻訳精度の向上を目指す.
そこで本研究では,パラレルコーパスのみを利用して,未知語を削減する方法を提案する. 統計翻訳では,単語列から単語列の翻訳確率をフレーズテーブルと呼ばれる表で管理する. フレーズテーブルは,単語対応からヒューリスティックスを用いて作成される. このフレーズテーブル作成の際に用いるヒューリスティックスにはいくつかの種類が存在するが, あるヒューリスティックスで作成されたフレーズテーブルに存在しないフレーズが,別のヒューリスティックスで作成したフレーズテーブルに存在する場合がある.したがって,異なるヒューリスティックスを用いたフレーズテーブルを併用することで,未知語が削減できる可能性がある.
本研究では,ヒューリスティックスとして``grow-diag-final-and"と``intersection"を併用することで,未知語の削減と翻訳精度の改善を目指す.
大西らは,文書レベルの文脈情報を用いてフレーズの並び替えを制限する手法を提案し,有意な成果を得た[3].また,Zollmannらは統語的情報を用いた機械翻訳システムを提案し,公開している[4].しかし,統語的情報を用いた機械翻訳の問題点として,統語ラベルの爆発的増加による,解析および翻訳時間の増加が挙げられる.
そこで本研究では,日英統計的階層句機械翻訳において,`浅い'統語的情報を用いる手法を提案する.浅い統語的情報として,日本語文の名詞句と動詞句にタグを付与する.タグを付与した日本語文を用いて学習することで,統語的情報を含む文法規則が生成され,翻訳精度が向上すると考えられる.
本論文の構成を以下に示す.第2章で従来の日英統計翻訳システムの概要について述べる.第3章でシステムの評価手法について説明する.そして,第4章,第5章,第6章で3つの研究それぞれについて述べる. 最後に,第7章で3つの提案手法についてまとめる.