先行研究として,鏡味らは人手で作成した辞書である鳥バンクを用いた. 鏡味らは,確率を付与した鳥バンクをフレーズテーブルに直接付与することにより,翻訳精度の向上を報告している[2]. また,東江らは人手で作成された辞書として英辞郎を用いた. 東江らは,確率を付与した英辞郎をフレーズテーブルに直接付与することにより,翻訳精度の向上を報告している[4].
しかし,人手で作成された辞書の利用には他にも方法が考えられる.
本研究では人手で作成された対訳フレーズ辞書を用いて,学習データ中の英語フレーズと日本語フレーズをそれぞれ一つのまとまりとした対訳フレーズデータを作成する. 対訳フレーズデータを用いると,人手で作成されたフレーズを含むフレーズテーブルが作成できる. その結果,フレーズテーブルの信頼性が向上し,翻訳精度が向上すると考える.
本研究では,人手で作成された辞書として鳥バンクと英辞郎をそれぞれ用いる. また,単文コーパスと重文複文コーパスに対してそれぞれ,日英統計翻訳と英日統計翻訳を行う. つまり合計8種類の実験を行った.
その結果,人手評価において鳥バンクを用いた提案手法の単文と重文複文の英日翻訳と,英辞郎を用いた提案手法の日英翻訳の重文複文の評価結果はベースラインより優れており,それ以外の翻訳実験はベースラインより劣っているという結果になった.
一方,自動評価において英辞郎を用いた提案手法の全ての実験においてはBLEU,METEORの値がベースラインより向上した. 鳥バンクを用いた提案手法はほとんどの自動評価においてベースラインよりスコアが低くなった.
本論文の構成は以下の通りである. まず,2章で統計翻訳システムの概要を示し,各モデルの学習について述べる. 3章では,先行研究手法,実験環境と翻訳実験結果について述べる. 4章では,本研究の提案手法について述べる. 5章では,実験に用いるデータやツールといった実験環境について述べる. 6章では,提案手法の結果を示す. そして,7章で考察を行い,最後に8章で結論を述べ,まとめる.