一般的に,統計翻訳では,イタリア語から英語へ翻訳する場合,語彙や文法構造が似ているため翻訳精度が高い傾向がある.しかし,日本語から英語へ翻訳する場合,語彙や文法構造が異なるため,翻訳精度が低い傾向がある.
その問題を解決するために,日本語の単語を並び替えて,英語の文法構造に近づけてから,統計翻訳を行なう研究がされている.
岡崎[1]によると,日本語文の主語,目的語,動詞(SOV)を主語,動詞,目的語(SVO)の順に並び替えただけでは翻訳精度は向上しなかったことが報告されている.一方,星野ら[2]によると,述語項構造に基づく事前並べ替えを行った後で,句に基づく統計翻訳(PSMT)を行うことで,翻訳精度が向上したことが報告されている. 星野らは特許文を使用している.そして,人手評価を行っていない.しかし,特許文は文法構造が複雑で,人手評価が困難である.
そこで,本研究では簡単な文法構造である単文コーパス[3]を使用し,星野らの論文の検証を行う.