従来,研究開発されてきた機械翻訳システムは,ほぼいずれもトランスファー方式を基本としている.この方式は,「原文の構文構造を目的言語の構造に変換する過程」と「原文の各要素を翻訳する過程」を持ち,訳文は両者の結果を合成することによって得られる点に特徴がある(長尾 1996;長尾,黒橋,佐藤,池原,中尾 1998).これは,構文構造と表現の意味を別々に変換するものであり,表現の構造と意味の関係が線形であることを前提とした要素合成方式が基本となっている.しかし,現実の言語表現には非線形なものが多く,表現が構成要素に分解される過程で全体の意味が次第に失われ,目的言語を生成する過程で復元できなくなることが問題であった(池原 2001).
この問題を解決するには,「文構造とその意味を一体的に扱う仕組み」を実現することが重要である.文構造とその意味を一体的に扱う仕組みとしては,古くから「文型パターン翻訳」の方法が試みられてきた.文型パターン翻訳は「テンプレート翻訳」とも呼ばれている.パターンに適合する入力文に対して品質の良い訳文が得られることから,多くの商用システムでトランスファー方式と併用する形で実現されてきた.最近では「翻訳メモリ」とも併用される傾向にある.
しかし,これらの文型パターン翻訳で使用されている文型パターン数はいずれも少なく(200〜300パターン程度),特定の狭い分野の文書に適用される例が多い.これは,パターン作成のコストが大きいこと,また,パターン数を増やすとパターン間の意味的な相互作用が増加して翻訳精度が低下することによるためと考えられる.
これに対して,既に,構造と意味の関係を考慮した「多段翻訳方式」が提案されている(池原,宮崎,白井,林 1987).この方式は,原言語表現の構造を意味を失わないように目的言語に対応づける仕組みとして「結合価パターン」を使用している.パターンの意味的排他性の問題は,精密な意味属性体系を使用することで解決しており,単文レベルの翻訳において精度の良い訳文が得られている(金出地,徳久,村上,池原 2003).しかし,複文(埋め込み文を持つ文),重文(接続のある文)の持つ非線形性が扱えないこと,また,原文に対して単一の目的言語表現が対応づけられる仕組みであるため,文脈に応じた表現選択ができないことが問題として残されている.
これらの2つの問題を解決するため,最近,言語表現の意味類型化を基本とする「意味的等価変換方式」が提案された(池原,佐良木,宮崎,池田,新田,白井,柴田 2002).この方式は非線形な言語表現の構造を意味的に類型化(衛藤,池原,池田,佐良木,新田,柴田,宮崎,白井 2003)した「意味類型パターン辞書」を使用するが,この辞書を構築するためには,やはり大規模な「文型パターン対辞書」を作成する必要がある.
文型パターンは,言語表現の非線形な構造を取り出してパターン化したものであるが,大規模な対訳コーパスからこのような文型パターンを作成するには,与えられた言語表現のどの要素が線形要素であり,どの要素がそうでないかを判断する基準を明確にし,作業手順化することが重要である.
ところで,線形性と非線形性は,表現構造と意味の関係に対して定義されるものであるため,現実の言語表現に適用するには,与えられた各表現の意味の定義を必要とする.すでに,言語表現の意味については,関係意味論の立場から概念の二重性に着目した検討(池原 2003)が行われており,また,言語表現構造の線形性,非線形性の問題については,工学的立場からの検討(池原 2004)が行われてる.
本検討では,その結果に基づいて日本語表現の意味を英語表現で表すこととし,大量の日英対訳例文から非線形な表現構造を取り出して文型パターンを作成するための作業基準と作業手順を定めた.また,それに従い,重文・複文を対象に構文レベルで24.6万件の日英文型パターンを作成したので,その結果について報告する.
以下,第2章では,機械翻訳の立場から,各文要素が文全体に対して線形であるか否かを判断するための原則を示す.第3章では,汎化作業の方針と単語レベル,句レベル,節レベルの3段階の文型パターン作成のための作業項目とその基準を述べる.最後に第4章では,重文と複文の対訳標本文から作成された文型パターンの内容を示す.