next up previous
Next: 単文抽出 Up: NLP-2005-3 Previous: NLP-2005-3

はじめに


日英機械翻訳において,要素合成方式が用いられてきた.この方式は,「原文 の構文構造を目的言語の構造に変換する過程」と「原文の各要素を翻訳する過程」 を持ち,訳文は両者の結果を合成することによって得られる点に特徴がある.これ は,構文構造と表現の意味を別々に変換するものであり,表現の構造と意味が線形 であることを前提としている[1].しかし,言語表現には意味的に非線形なものが多く,表現を分解して行く過程で全体の意味が失われることが問題であった.


この問題を解決するには,「文構造とその意味を一体的に扱う仕組み」が重要である.この仕組みとして,古くから,「テンプレート翻訳」と呼ばれる「文型パター ン翻訳」の方法が試みられてきた.そして,大量の日英対訳例文から重複文を対象 に文型パターンを作成する方法が提案された[2].現在,日本語の重複文12 万文に対してパターンが人手によって作成されている.しかし,単文は対象外であっ たため,未だに単文の文型辞書は得られていない.また,人手によるパターン作成 にはコストがかかる.


そこで,本研究では,単文の文型パターンを自動的に作成し,翻訳精 度を検証する.まず,CREST対訳例文100万件[3]から単文を抽出する.次に 日英対訳辞書を用いて日英の単語の対応関係を発見し,変数化する.最後に得られた文 型パターンを用いて英文生成し,翻訳精度を検証する.




Jin'ichi Murakami 2006-03-11