次へ: 文型パターン辞書の概要 上へ: 日本語重文・複文を対象とした文法レベル文型パターンの被覆率特性 戻る: 日本語重文・複文を対象とした文法レベル文型パターンの被覆率特性

はじめに

従来の機械翻訳システムは要素合成法（Semantic Composition）を基本としているが，言語表現には意味的に非線形なものが多く，表現を分解して行く過程で全体の意味が失われることが問題であった．この問題を解決するには，文構造とその意味を一体的に扱う仕組みが必要だと考えられる．

このような仕組みとしては，既に，古くから文型パターン翻訳（テンプレート翻訳とも言う）の方法が試みられてきた．この方法は，文型パターンに適合した入力文に対して品質の良い訳文が得られることから，トランスファー方式と併用する形で多くの商用システムで実現されている．最近では，翻訳メモリとも併用する形式で採用されている例が多い．

しかし，使用されている文型パターンの数はいずれも100～300パターン程度で少なく，補助的な仕組みとして使用されるか，もしくは，ある特定の狭い分野の文書に適用されているのが普通である．これは文型パターンの作成コストが高いこともあるが，パターン数が増大するとパターン間の相互干渉が増加して翻訳精度が低下することが主な原因と見られる．

これに対して，文構造と意味の関係の体系化を試みたものとして多段翻訳方式 [池原, 宮崎, 白井, 林池原 1987]の研究がある．この方式では，動詞または形容詞と共起する名詞の関係を1.7万件の結合価パターン [池原, 宮崎, 白井, 横尾, 中岩, 小倉, 大山, 林池原 1997]としてまとめており，単文レベルでの訳文品質は従来に比べて大幅に向上した[金出地, 池原, 村上金出地 2001]．しかし，複文（埋め込み節を持つ文）や重文（接続構造を持つ文）に対して，意味の非線形性を扱う仕組みがないこと[IkeharaIkehara2001]，また，意味の単位とされる原言語の表現構造に対して，単一の目的言語表現が対応づけられるため，文脈上，不適切な表現への翻訳が防止できないことが問題として残されている [池原池原2001]．

これらの２つの問題を解決することを狙って，最近，「等価的類推思考の原理による機械翻訳方式」[池原池原2002][池原池原2003]が提案された．この方式は，原言語と目的言語の表現から非線形な表現構造[池原池原2004]を取り出して文型パターン化した後，意味の同等性に着目して類型化 [有田有田1987]すること，また意味的に類型化された文型パターン間を「類推思考の原理」[市川市川1963]によって対応づけることの２つの仕組みから構成される．

この方式を実現するには，原言語，目的言語の表現に対する「意味類型パターン」を収録した大規模な「意味類型知識ベース」を構築することが必要である．「意味類型パターン」は，原言語表現の意味的に非線形な構造を取り出して，それを意味的に分類体系化し，原言語と目的言語に共通する概念（「真理項」と呼ぶ）を介して目的言語の「意味類型パターン」に対応づけるものである．従って，「意味類型知識ベース」を開発するには，あらかじめ，原言語と目的言語の対訳文から意味的に非線形な構造を取り出して「対訳文型パターン辞書」を作成することが必要となる．

ところで，このような文型パターン辞書構築の最大の問題は，「文型パターンの網羅性」と「意味的な排他性」をいかにして実現するかの２点である．

このうち網羅性を実現するには，汎化された大量の文型パターンが必要と考えられるが，汎化が進むにつれて排他性を確保することが難しくなることが予想される．このような網羅性と排他性の問題を解決するには，実際にある程度大量の文型パターンを作成しながら，実験的に汎化の可能性を調べていくことが必要と考えられる．

これに対して，新翻訳方式に関する上記の研究では，第１段階として，日英対訳例文100万件の中から重文，複文の例文12.9万件を抽出し，それを文法的なレベルで汎化することによって単語レベル，句レベル，節レベルの文型パターン24.6 万件（そのうち異なり文型パターン数は22.1万件）が試作された [池原, 阿部, 徳久, 村上池原 2004]．そこで，本研究では，日本語試験文と文型パターンとの照合実験を行って，文型パターンの被覆率と排他性について評価し，文法レベルで定義された文型パターンの問題点と今後の対策について検討する．

以下，第２章では，作成された文型パターン辞書の概要を示し，第３章で被覆率特性の評価方法を述べる．第４章では，再現率の評価結果を示し，第５章で文型パターンを記述する方法と被覆率の関係についての評価結果を示す．第６章で意味的な適合率について評価する．最後に第７章で評価結果をまとめ，正解率を向上させるための方法について考察する．

平成16年11月17日