近年,大量の対訳学習文から自動的に翻訳規則を獲得し翻訳を行う統計翻訳が主流となっている.統計翻訳において,翻訳されない単語(未知語)が出力されることで翻訳精度の低下につながるという問題がある.この未知語を減少させるための手法として,対訳学習文などの学習データを新たに追加して行う未知語処理と,追加せずに行う未知語処理の2パターンが考えられる.前者の考えに基づいた日野らの研究[1]では,新規の対訳句辞書を既存の対訳学習文に追加して未知語処理を行った.そして,未知語数の削減と翻訳精度向上が報告されている.しかし,日野らの手法では新規の学習データが必要になるためコストがかかる.後者の考えに基づいた藤原らの研究[2]では,句に基づく統計翻訳において,フレーズテーブル作成時のヒューリスティックスを併用して未知語処理を行った.そして,未知語数の削減と翻訳精度向上が報告されている.しかし,藤原らの手法は,句に基づく統計翻訳器に限定されるため,他の統計翻訳器への応用が期待できない.
そこで,本研究では,他の統計翻訳器への応用を考慮した,新規の学習データを必要としない新たな未知語処理手法を提案する.具体的には,単語アライメントツール(GIZA++[3])を用いて自動作成した対訳単語辞書による未知語処理を,一度生成した出力文に対する後処理の形で行う.提案手法は大きく分けて4つの手順で構成される.手順1では,任意の統計翻訳器における出力文から未知語を抽出し,未知語リスト1を作成する.手順2では,GIZA++を用いて対訳学習文から対訳単語を獲得し,対訳単語辞書を作成する.手順3では,手順2で作成した対訳単語辞書を用いて未知語リスト1を翻訳し,未知語リスト2を作成する.ここで,対訳単語辞書内に訳語が複数存在する場合は単語翻訳確率が最尤の単語を選択する.手順4では,未知語処理前の文に対して,未知語リスト2を適用する.以上の手法により,未知語数の削減と翻訳精度の向上を試みた.
実験の結果,1,644文中967文と1,847単語中1,134単語の未知語処理ができた.さらに,人手評価と自動評価の結果より文全体の翻訳精度が向上し,提案手法の有効性が確認できた.