次へ: 統計翻訳システム 上へ: syuron 戻る: 表一覧目次

はじめに

現在，グローバル世界で活動するに従い，言語を翻訳する仕事が急激に増加している．一方で，人手による翻訳は時間がかかり，コストが高く，言語によっては翻訳者の数も限られる．そのため，時間やコストを削減するために機械翻訳の技術の必要性が高まっている．従来の機械翻訳方式ではルールベース法が用いられてきた．ルールベース法は1つの言語間の翻訳規則を長い時間をかけて構築する必要がある．また，言語により翻訳規則が異なるため，多言語への拡張が難しい．そこで，現在，機械翻訳の分野において，対訳データから自動的に翻訳規則を生成し，翻訳を行う統計翻訳が注目されている．

統計翻訳は，獲得した翻訳規則を言語モデルと翻訳モデルで管理する．言語モデルは，単語の列や文字の列が起こる確率を与えるモデルである．翻訳モデルは，英語の単語の列から単語の列へ確率的に翻訳を行うためのモデルである．翻訳モデルには，主に単語に基づくモデルと句に基づくモデルがある．単語に基づくモデルは，単語の対応作成時に，対応がない単語にはNULLを対応させる．その結果，単語に基づくモデルにおける翻訳精度の低下を起こす．一方，句に基づくモデルは，単語に基づくモデルより，訳語の選択能力や局所的な語の並べ替え能力の高い，句に基づく翻訳モデル[2]が現在の主流になっている．

句に基づく翻訳モデルは，プログラムで自動作成されるフレーズテーブルと呼ばれる表で管理されている．句に基づくモデルは，句の対応をとるため，単語に基づくモデルで使用されていたNULLは使用しない．フレーズテーブルはプログラムにより自動作成されるため，カバー率は高いが，信頼性は低い．

対訳フレーズ対の信頼性が低いという問題に対し，鏡味らは人手で作成した対訳フレーズ対を統計翻訳に導入し，翻訳性能の向上を報告した[1]．この先行研究は人手で作成した対訳フレーズ対を導入するために，自動作成した対訳フレーズ対の翻訳確率を利用する．そのために，自動作成した対訳フレーズ対と人手で作成した対訳フレーズ対のマッチングを行う．そして完全に一致した場合のみ，人手で作成した対訳フレーズ対に対して翻訳確率を付与する．よって，導入可能な対訳フレーズの数が少ないという問題がある．

そこで本研究では，導入可能な対訳フレーズ対が少ないという問題に対処するために，完全に一致した対訳フレーズ対だけでなく，部分的に一致した対訳フレーズ対を統計翻訳に導入し，翻訳性能の向上を試みる．

その結果，従来手法と比較すると，提案手法の翻訳精度は向上した．しかし，先行研究と比較すると，提案手法の翻訳精度は低いという結果であった．よって，提案手法の有効性は低いという結果であった．

2章において，統計翻訳システムの各部分の説明を行い，統計翻訳システムの概要を示す．3章において，本研究における，提案するシステムと先行研究のシステム，従来手法の説明を行い，それぞれのシステムの違いを示す．4章において，実験データと実験環境の説明を行い，パラメータなどの設定を示す．5章において，システムの出力を評価する手法の説明を行い，評価方法の違いを示す．6章，7章において，提案手法と従来手法，先行研究の比較を行い，その結果を示す．8章において，先行研究と提案手法を組み合わせたシステムと先行研究の比較を行い，その結果を示す．9章で考察を示し，最後に10章で結論を述べ，まとめる．

平成24年3月23日