従来の機械翻訳システムは要素合成法(Semantic Composition)を基本としてい るが,言語表現には意味的に非線形なものが多く,表現を分解して行く過程で全 体の意味が失われることが問題であった.この問題を解決するには,文構造とそ の意味を一体的に扱う仕組みが必要だと考えられる.
このような仕組みとしては,既に,古くから文型パターン翻訳(テンプレート翻 訳とも言う)の方法が試みられてきた.この方法は,文型パターンに適合した入 力文に対して品質の良い訳文が得られることから,トランスファー方式と併用す る形で多くの商用システムで実現されている.最近では,翻訳メモリとも併用す る形式で採用されている例が多い.
しかし,使用されている文型パターンの数はいずれも100〜300パターン程度で少 なく,補助的な仕組みとして使用されるか,もしくは,ある特定の狭い分野の文 書に適用されているのが普通である.これは文型パターンの作成コストが高いこ ともあるが,パターン数が増大するとパターン間の相互干渉が増加して翻訳精度 が低下することが主な原因と見られる.
これに対して,文構造と意味の関係の体系化を試みたものとして多段翻訳方式 [池原, 宮崎, 白井, 林池原 1987]の研究がある.この方式で は,動詞または形容詞と共起する名詞の関係を1.7万件の結合価パターン [池原, 宮崎, 白井, 横尾, 中岩, 小倉, 大山, 林池原 1997]としてまとめており,単文レベルでの訳文品質は従来に比べて 大幅に向上した[金出地, 池原, 村上金出地 2001].しかし,複文 (埋め込み節を持つ文)や重文(接続構造を持つ文)に対して,意味の非線形性 を 扱う仕組みがないこと[IkeharaIkehara2001],また,意味の単位とされる原言語 の表現構造に対して,単一の目的言語表現が対応づけられるため,文脈上,不適 切な表現への翻訳が防止できないことが問題として残されている [池原池原2001].
これらの2つの問題を解決することを狙って,最近,「等価的類推思考の原理に よる機械翻訳方式」[池原池原2002][池原池原2003]が提案された.この 方式は,原言語と目的言語の表現から非線形な表現構造[池原池原2004]を取 り出して文型パターン化した後,意味の同等性に着目して類型化 [有田有田1987]すること,また意味的に類型化された文型パターン間を「類推 思考の原理」[市川市川1963]によって対応づけることの2つの仕組みから 構成される.
この方式を実現するには,原言語,目的言語の表現に対する「意味類型パターン」 を収録した大規模な「意味類型知識ベース」を構築することが必要である.「意 味類型パターン」は,原言語表現の意味的に非線形な構造を取り出して,それを 意味的に分類体系化し,原言語と目的言語に共通する概念(「真理項」と呼ぶ) を介して目的言語の「意味類型パターン」に対応づけるものである.従って, 「意味類型知識ベース」を開発するには,あらかじめ,原言語と目的言語の対訳 文から意味的に非線形な構造を取り出して「対訳文型パターン辞書」を作成する ことが必要となる.
ところで,このような文型パターン辞書構築の最大の問題は,「文型パターンの 網羅性」と「意味的な排他性」をいかにして実現するかの2点である.
このうち網羅性を実現するには,汎化された大量の文型パターンが必要と考えら れるが,汎化が進むにつれて排他性を確保することが難しくなることが予想され る.このような網羅性と排他性の問題を解決するには,実際にある程度大量の文 型パターンを作成しながら,実験的に汎化の可能性を調べていくことが必要と考 えられる.
これに対して,新翻訳方式に関する上記の研究では,第1段階として,日英対訳 例文100万件の中から重文,複文の例文12.9万件を抽出し,それを文法的なレベ ルで汎化することによって単語レベル,句レベル,節レベルの文型パターン24.6 万件(そのうち異なり文型パターン数は22.1万件)が試作された [池原, 阿部, 徳久, 村上池原 2004].そこで,本研究では,日本 語試験文と文型パターンとの照合実験を行って,文型パターンの被覆率と排他性 について評価し,文法レベルで定義された文型パターンの問題点と今後の対策に ついて検討する.
以下,第2章では,作成された文型パターン辞書の概要を示し,第3章で被覆率 特性の評価方法を述べる.第4章では,再現率の評価結果を示し,第5章で文型 パターンを記述する方法と被覆率の関係についての評価結果を示す.第6章で意 味的な適合率について評価する.最後に第7章で評価結果をまとめ,正解率を向 上させるための方法について考察する.