next up previous contents
次へ: 統計翻訳 上へ: honron_v2 戻る: 表一覧   目次

序論

機械翻訳は,人手によって翻訳ルールを記述し翻訳を行う,ルールベース翻訳が用いられていた.しかし,ルールベース翻訳は,人手で翻訳ルールを記述する必要があり,大きなコストがかかる.また,多言語間で翻訳を行う場合,言語間ごとに翻訳ルールを記述する必要があり,多言語化が困難であるという問題点があった. そこで,近年の機械翻訳では,対訳データから自動的に機械翻訳システムを構築する統計翻訳が主流となっている.統計翻訳は,対訳データがあれば自動的に翻訳規則を作成できるため,コストが小さく,また多言語化も容易に行うことができる.
ところで,日本語文には主語を省略している文が存在する.統計翻訳において,主語を省略している日本語文の翻訳品質は低い[1].よって,主語を省略している文に対し,主語を補完する必要がある.主語の補完では,新聞記事などの文章内であれば,多くの場合,その他の文から補完対象を推定することが可能である[2].しかし,翻訳する文が文章ではなく,主語を省略している1文のみである場合,主語を省略している文の作成者を除いて,適切な補完対象を推定することは困難である.一方,実生活において,文章ではなく1文単位で翻訳を行う場面はしばしば存在する.よって,翻訳を行う前に,何らかの主語を補完する必要がある.
そこで古市ら[3]は,主語を省略している日本語文に対し,主語として``私は"を自動で補完し,日英統計翻訳を行った.実験の結果,テストデータのみ主語を補完した場合,人手評価と自動評価において翻訳精度の向上を報告した.また平らは,日英統計翻訳において,日本語文の省略格要素を人手で補完し,翻訳を行った.実験の結果,人手評価と自動評価において翻訳精度の向上を報告した.
しかし,古市らの調査では以下の事例を示した.


(1) ある特定の主語(例えば``私は")において日本語文の翻訳品質は低いが,他の主語
  (例えば``彼は")において翻訳品質が高い.


(2) 主語がある日本語文の翻訳品質は低いが,主語を省略している日本語文の翻訳
  品質は高い.


そこで本研究では,主語を省略している日本語文及び,8種類の主語を補完した文をそれぞれ翻訳し,翻訳品質が高い文を選出することで,翻訳精度の向上を目指した.まず,8種類の主語を補完した日本語文と,主語を省略している日本語文に対し,それぞれ日英統計翻訳を行った.次に,翻訳モデルの確率と言語モデルの確率を掛け合わせた翻訳確率が最大となる出力文を選出した.そして,選出した文を,最終的な出力文とした. 実験の結果,本研究で提案した手法では,自動評価と人手評価の両方において翻訳精度の改善を示し,本研究の有効性を示した.
本論文の構成は,以下の通りである.2章において,日英統計翻訳システムについての説明を行う.3章において,関連研究について述べる.3.4章において,関連研究における問題点を示す.4章において,提案手法の説明を行う.5章において,本研究で行う実験の種類を示す.6章において,実験環境について説明する.7章において,実験結果について説明する.8章において,追加実験について説明する.9章において,考察を述べる.10章において結論を述べる.



平成25年2月13日