Next: 日英統計翻訳 Up: honron Previous: 表目次目次

はじめに

機械翻訳において，人手で翻訳規則を定義し，翻訳を行うルールベース翻訳が一般的であった．しかし，人手で翻訳規則を定義するには，莫大なコストがかかる．また，言語毎に文法規則が異なるため，多言語への拡張が困難であった．そのため，近年では，大量の対訳学習文から自動的に翻訳規則を獲得し翻訳を行う統計翻訳が主流となっている．この統計翻訳において，翻訳されない単語（未知語）が出力されることで翻訳精度の低下につながるという問題がある．

この未知語を減少させるための手法として，対訳学習文などの学習データを新たに追加して行う未知語処理と，追加せずに行う未知語処理の2パターンが考えられる．前者の考えに基づいた日野らの研究[1]では，新規の対訳句辞書を既存の対訳学習文に追加して未知語処理を行った．そして，未知語数の削減と翻訳精度向上が報告されている．しかし，日野らの手法では新規の学習データが必要になるためコストがかかる．後者の考えに基づいた藤原らの研究[2]では，句に基づく統計翻訳において，フレーズテーブル作成時のヒューリスティックスを併用して未知語処理を行った．そして，未知語数の削減と翻訳精度向上が報告されている．しかし，藤原らの手法は，句に基づく統計翻訳器に限定されるため，他の統計翻訳器への応用が期待できない．

そこで，本研究では，他の統計翻訳器への応用を考慮した，新規の学習データを必要としない新たな未知語処理手法を提案する．具体的には，GIZA++[3]を用いて自動作成した対訳単語辞書による2種類の未知語処理を，一度生成した出力文に対する後処理の形で行う．提案手法は大きく分けて4つの手順で構成される．手順1では，任意の統計翻訳器における出力文から未知語を抽出し，未知語リスト1を作成する．手順2では，GIZA++を用いて対訳学習文から対訳単語を獲得し，対訳単語辞書を作成する．手順3では，手順2で作成した対訳単語辞書を用いて未知語リスト1を翻訳し，未知語リスト2を作成する．ここで，対訳単語辞書内に訳語が複数存在する場合は単語翻訳確率が最尤の単語を選択する．手順3では，未知語処理前の文に対して，未知語リスト2を適用する．以上の手法により，未知語数の削減と翻訳精度の向上を目指す．

本論文の構成を以下に示す．第2章で日英統計翻訳の概要について説明する．第3章では先行研究について説明し，第4章で提案手法について説明する．そして，第5章では実験環境を，第6章で実験結果を示し，第7章で本研究の考察を述べる．

s122019 2018-02-15