next up previous contents
Next: Contents Up: honron Previous: honron   Contents

概要

機械翻訳には様々な手法がある.機械翻訳手法の例として統計翻訳が挙げられる.統計翻訳では対訳文から言語モデル(目的言語文の統計モデル)と翻訳モデル(原言語と目的言語の関係を表すモデル)を作成する.これらのモデルを利用して原言語文を目的言語文に翻訳する手法である.しかし,統計翻訳では限られた対訳文からモデルを作成する.そのためモデルは不完全であり,不完全なモデルを利用した翻訳は精度が十分ではない.

別の手法として古瀬ら``経験的知識を活用する変換主導型機械翻訳[6]を提案した.この手法では,対訳文を解析して得られた経験的知識から変換知識を作成する.この変換知識を利用して原言語文を繰り返し変換することで,目的言語文に翻訳する手法である.対訳文を解析して得られた経験知識を利用することで原言語と目的言語の一般的な現象を捉えることができる.そのため,高い翻訳精度を実現した.しかし,変換知識の作成は人手で行われるため,開発コストは高い.また,古瀬らの研究[6]では語彙数の少ない対訳文を利用していた.本研究で利用する電子辞書などの例文より抽出した単文[14]では,入力文に対して翻訳可能な文の割合(以下,カバー率)は低下すると考えられる.

以上のような問題を解決するために,``相対的意味論を利用した変換主導型統計機械翻訳:Transfer Driven Statistical Machine Translation[1]" [*](以下,TDSMT)を提案する.TDSMTでは対訳文から変換テーブルを自動作成する.変換テーブルは「ABならばCD」の形式である.この変換テーブルと対訳文を利用して翻訳を行う.対訳文を変換し,翻訳を行うため,文法を順守した翻訳が期待できる.さらに,変換テーブルを自動作成することにより``経験的知識を活用する変換主導型機械翻訳[6]"と比較して低コストで高いカバー率を得られる.

I部では``相対的意味論を利用した変換主導型統計機械翻訳[1]"の詳細な手法(変換テーブルの自動作成手法と翻訳の手法)を提案する.TDSMTカバー率を調査した.調査のカバー率は20% 程度であった.このカバー率は統計翻訳と比較してまだまだ低い.カバー率を向上させる手法を考案する必要がある.

そのため,第II部では出力文中に未知語を出力する手法を提案する.この手法は,入力文と対訳文を利用して未知語出力用変換テーブルを作成する.未知語出力用変換テーブルは「ABならばCC」の形式である.この未知語出力用変換テーブルを変換変換テーブルとあわせて利用し翻訳することで,出力文に未知語を出力する手法である.未知語を出力した場合のTDSMTにおいてカバー率を調査した.調査の結果未知語を出力することでカバー率は60% 程度まで向上した.さらに,未知語を正しく翻訳できた場合,翻訳精度において,TDSMTは統計翻訳を上回る可能性を示した.



Hiroto Yasuba 2019-05-08