Next: Contents
Up: honron
Previous: honron
Contents
近年,機械翻訳において言語表現の構造を意味のまとまる単位にパ
ターン化した文型パターン翻訳方式の研究が行われてきた.しかし,これらの文型
パターン翻訳で使用されている文型パターン数は少なく(200〜300パターン程度),
狭い分野の文章に適用されることが多かった.パターン翻訳を行う際,大量の文型
パターンを用意する必要がある.現在,日本語の重複文12万文に対してパターンが
作成されている[2].
しかし,日本語の翻訳精度向上のためには,重複文の基本構造ともいえる単文の文型辞書が必要である.
そこで,本研究では,単文の文型パターンを自動的に作成した.まず,
単文の条件を定義し,日英対訳文100万件より単文215,242件を抽出した.次に,日英対訳
辞書を用いて変数化を行い,日英対訳パターンを作成した.
具体的には,日本語文を形態素解析にかけ,日英対訳辞書によって対応関係が決定できる単語を同じ変数に置き換えた.このようにして得られた文型パターンの日本語パターンにおいて重複する単文を削減した結果,日本語パターンは201,754件となり,日本語パターンの削減率は,6.36%であった.
また,得られた文型パターンでの翻訳精度を検証するため,日英対
訳文より,ランダムに100件の単文を抽出した.各々の文型パターンを用いて翻訳
精度を調査した.その結果,一つの日本語パターンに対して複数の英語パターンを
持つ単文は,100件中9件であった.単文9件の英語パターンの翻訳精度を検証した所,自己パターン以外の英語パターンを用いても精度の高い英文が得られた.
Jin'ichi Murakami
2006-03-11