CRESTプロジェクトにおける研究の主たる目標は、重文複文を対象(注1)とする「意味類型パターン辞書」を研究開発することです。ここで、「意味類型パターン辞書」とは、「文型パターン辞書」を意味類型化(注2)したもので、この研究では、まず、「文型パターン辞書」を試作し、それを意味的に類型化することによって「意味類型パターン辞書」を開発しました。その過程で、品質を評価し、さまざまな改良を実施するため、「パターン検索プログラム」を試作しました。
(注1)単文の持つ非線形な表現構造については、すでに、結合価文法に基づく「日本語意味大系」(岩波書店1997)が開発されているので、このプロジェクトでは、重文と複文を対象とした。
(注2)各文型パターンを、意味的に分類できるようにすることを言う。この研究開発では、各パターンに対して、それが表す意味(概念のことで「真理項」と呼ぶ)を付与した。
はじめに、重文複文の表現を意味的にほぼ網羅するような表現意味辞書を実現することを目標に文型パターン辞書を研究開発しました。その手順は以下の通りです。
まず、言語表現とそれを構成する要素の線形性と非線形性の定義を明確にし、非線形言語モデルを提案しました。この言語モデルは、「すべての言語表現は、線形要素と非線形要素から構成される」とするものです。
次に、このモデルに基づいて、文型パターン記述言語を設計しました。この言語は、「字面」、「変数(17種類)」、「関数(10種類157関数)」、「記号(10種類)」の4種類の要素を用いて文型パターンを記述するものです。線形要素は、原則として字面以外の要素で記述されます。線形要素の中でも変数の変域を的確に指定することが重要です。そこで、重文複文のパターン記述の観点から用言と名詞に対する新しい意味属性体系を構築しました。用言意味属性体系は、日本語用言を意味的用法によって4段366種類に分類するもので、これに基づく約6,000語の用言意味辞書を作成しました。また、名詞意味属性体系は、日本語名詞を意味的用法によって4段364種類に分類するもので、これに基づいて約6万語の名詞意味辞書を作成しました。
ところで、パターン化の対象となる表現は、1つ以上の非線形要素を持つ表現です。汎化対象となる線形要素の半自動的な判定方法を検討し、文型パターン作成手順の半自動化を図りました。文型パターン辞書作成の具体的手順は以下の通りです。
まず、比較的標準的な日英対訳例文約100万件を収集しました。その中から、述部2つ及び3つの重文と複文を抽出して形態素解析を行い、解析誤りを人手で修正の上、タグ付きの対訳コーパス(15万件)を作成しました。
次に、この対訳コーパスを対象に半自動的な汎化手順を適用して、単語レベル(12.2万件)、句レベル(7.9万件)、節レベル(2.5万件)の文型パターン辞書(合計22.7万件)を作成しました。なお、品質向上のため、作成の過程では、汎化誤りの検出と修正、パターン記述言語の機能拡張など、さまざまな改良と工夫を行った結果、実用的な水準とみられる被覆率(統語的被覆率97.8%、意味的被覆率78%)を達成することができました。
上記で作成した文型パターン辞書の意味類型化を行うため、重文複文の統語的構造に関する分類体系と意味の分類体系を構築しました。また、すべての文型パターンに統語的分類コードと意味分類コードを付与しました。
このうち、統語的分類は、構成要素となる節の関係に着目したもので、24種類に分類しました。これは、意味類型化では必須な情報でなく、今後のパターン利用のための参考情報とするものです。これに対して、意味分類コードは、文型パターンを意味類型化(意味的なグループ化)するために必須のものです。第1の分類体系として、重文複文全体を構成する複数の節の意味的関係に着目して、「節間意味分類体系(4段227種類)」を開発しました。第2の分類としては、個々の節の意味を表す「節の意味分類体系」も使用することにしました。但し、節の意味は、述部の意味属性分類に従うものと考え、用言述部の節の意味は用言の意味属性体系を、体言述部を持つ節(だ文相当)の意味は、名詞の意味属性体系を用いて分類しました。これにより、節の意味は合計5段742種類に分類されることになりました。
ところで、文型パターン全体に含まれる節の数は26.7万件であり、節間の関係は15万カ所存在します。節の意味コードはほぼ機械的に付与できますが、節間の意味判定は単純ではありません。表現の形式と意味の対応規則(必ずしも1対1ではない)の分析ツールを作成し、人手による判定作業を支援しました。
意味類型パターン辞書の被覆率を評価し、問題分析と改良に役立てるため、「パターンパーサ」と「意味検索プログラム」を作成しました。
「パターンパーサ」は、入力日本文と各パターンの構成要素を比較して、適合するパターンを発見するものです。ネットワーク文法を階層化したアルゴリズムを基本としています。さまざまな工夫を行っており、パターン記述言語の変更に簡単に対応できます。また、12.2万件の標本文と22.7万パターン間の照合実験(クロス照合実験)を約30時間(入力文当たり1秒以下)で実施できます(鳥大内製版)。
また、「意味検索プログラム」は、入力文の意味コードを判定し、それと同じ(又はその配下の)意味コードを持つ文型パターンを検索するものです。前者は入力文と一致する構造のパターンのみが検索されますが、後者は、構造の異なるパターンも抽出されるため、日本語書き換えや発想支援型の英作文などに応用できます。
目標とする重文複文の文型パターン辞書の開発とその意味類型化は、ほぼ達成することができましたが、残された問題も多くあります。今後の主要な課題は、おおよそ以下の通りです。
パターン辞書の問題として残された最大の課題は、パターン変数に付与された意味的制約条件(意味属性)の適正化の問題です。この問題は、文型パターン間の意味的排他性を実現する上で、大変重要な問題です。この研究では、動詞、名詞に対して新しい意味属性体系を構築し、変数に対して、それに基づく制約条件を付与しましたが、この作業は、コストの関係から機械的に可能な範囲に止まっています。そのため、変数に対して、不要な意味属性を含む複数の意味属性を付与したままになっているものが多く、また、適正なレベルまでの汎化も行われていない状態です。
文型パターン辞書の被覆率は、パターンパーサの能力にも依存しています。特に、句変数や節変数に対するパターンパーサの照合アルゴリズムに依存するところが大きいと言えます。今後、パターン記述方式との整合性を高めることで、文型パターン辞書の意味的な被覆率はさらに向上することが見込まれます。
入力日本文に対して、通常多くのパターンが適合し、その中には意味的に不適切なものも含まれます。そのため、適切なパターンを選択する方法としては、多変量解析の方法が簡単で、かなりの効果が得られるようです。しかし、不適切なパターンへの適合を防止することが重要で、今後は、(1)で述べたように、パターン変数の意味的制約条件をきめ細かくブラッシュアップしていく必要があると思われます。