現在, 機械翻訳の分野において, 統計翻訳の研究が注目されている. 統計翻訳において, 対訳コーパスの文数が多ければ多いほど翻訳精度は高くなる. しかし, 利用できる対訳コーパスの文数には限りがある.
そこで, Popovic Maja らは, セルビア語英語間の翻訳において, 小規模の対訳コーパスに対訳句コーパスを追加し, 句に基づく統計翻訳を用いて翻訳を行った. その結果, 翻訳精度が向上した [1]. 統計翻訳において日本語英語のような文法構造が大きく異なる言語間で翻訳精度を向上させようとする研究が多く行われている. そこで, 日野らは同様の手法を用いて, 対訳句コーパスとして鳥バンク[2]と英辞郎[3]を用いて, 日本語英語間の翻訳を行った. その結果, 日本語英語間においても翻訳精度の向上が確認できた[4].
ところで, 文は句とパターンで構成されている. そこで, 対訳句を追加することで翻訳精度が向上するため, 対訳コーパスに対訳パターンを追加しても翻訳精度が向上すると仮定した.
本研究では, 対訳コーパスに対訳パターンを追加することによる翻訳精度の効果を調査した. その結果, 対訳コーパスに対訳パターンを追加することでも翻訳精度の向上が確認できた. また, プログラムで自動的に作成した対訳パターンを追加する手法と, 人手で作成した対訳パターンを追加する手法の比較を日英翻訳と英日翻訳で行った. プログラムで自動的に作成した対訳パターンを利用する手法が自動評価, 人手評価ともに良い結果となった. 原因としては人手で作成した対訳パターンを利用する手法は多くのBe動詞や助動詞の変数化がされている点である.
なお, 結果が良かったプログラムで自動的に作成した対訳パターンを利用する手法を用いて, 様々な変数化を行ってパターン追加実験を行った. 実験の結果, 簡易的な変数化を行わない手法を用いたパターン追加の有用性は示されなかった. しかし, 動詞を変数化しない手法を用いたパターン追加は日英翻訳で有用性が確認できた. 今後は更に変数化する品詞を絞って実験をする予定である.