next up previous contents
次へ: 日英統計翻訳システム 上へ: honron 戻る: 表一覧   目次

はじめに

機械翻訳は,人手で対訳コーパスや文法のルールを作成するルールベース翻訳がはじめである.しかし,ルールベース翻訳は莫大な時間と労力がかかる欠点がある.この欠点を改善するために,語に基づく統計翻訳が提案されたが,莫大なデータ量や計算機のパワーが必要であるため,あまり発展されなかった.しかし,句に基づく統計翻訳が提案されたときは,語に基づく統計翻訳の時代と比較して,計算機のパワーが大きく改良された.また,句に基づく統計翻訳は,語に基づく統計翻訳と比較して,翻訳精度が高いため,統計翻訳が急速に広がった.

一般的に,統計翻訳では,イタリア語から英語へ翻訳する場合,語彙や文法構造が似ているため翻訳精度が高い傾向がある.しかし,日本語から英語へ翻訳する場合,語彙や文法構造が異なるため,翻訳精度が低い傾向がある.

その問題を解決するために,日本語の単語を並び替えて,英語の文法構造に近づけてから,統計翻訳を行なう研究がされている.

岡崎[1]によると,日本語文の主語,目的語,動詞(SOV)を主語,動詞,目的語(SVO)の順に並び替えただけでは翻訳精度は向上しなかったことが報告されている.一方,星野ら[2]によると,述語項構造に基づく事前並べ替えを行った後で,句に基づく統計翻訳(PSMT)を行うことで,翻訳精度が向上したことが報告されている. 星野らは特許文を使用している.そして,人手評価を行っていない.しかし,特許文は文法構造が複雑で,人手評価が困難である.

そこで,本研究では簡単な文法構造である単文コーパス[3]を使用し,星野らの論文の検証を行う.



平成26年3月29日