本方式では,解釈の曖昧性が問題となる表現を,まず,変数部分と字面の部分か らなるパターンで表現した後,構造規則を変数部分に対する制約条件と解釈の組 によって定義した.変数部分の記述では,「オールマイティ記号」,「文法属 性」,「意味属性」,「字面」の4種類の記号の使い分けが可能で,汎用的な規 則から個別的で慣用的な表現まで柔軟に表現できる.
次に,生成される規則は,オールマイティ以外の記号が使用される変数部分の数 によって次元規則のグループに分類され,各グループの中で汎化が行われる.例 えば,個の変数を持つ表現パターンの場合,一次元規則から次元規則までの 規則と字面からなる例外規則を合わせてのグループの構造規則が,順に生 成される.汎化は,各次元の特徴空間の中で,木構造で表現された文法属性もし くは意味属性の意味的な包含関係を辿ることにより,容易に実行されるが,この とき,「実際の表現解析では,構造規則は生成された順に適用される」ことを前 提に,一度,規則生成に使用された事例を事例集合から削除することにより,汎 化領域の拡大と規則数の削減を図っている.
本方式を「」の型の名詞句に対する名詞間の係り受け解析規則の生成 に適用した結果では,変数部分を意味属性で表現した構造規則の場合,1万件の 学習事例から,一次元規則198件,二次元規則1,480件,三次元規則136件が得ら れた.そのカバー率は,であったが,この値は,学習用の標本に含まれる 名詞の種類が全体(約2,700種類)の半分以下(1,000〜1,300種類)であった点 から見てかなり高い.これを使用した係り受け解析では,約86%の解析精度が得 られた.また,変数部分を文法属性で表した規則と意味属性で表した規則を併用 する場合は,解析精度は,向上する.
これらを,2名詞間の結合強度に還元して評価する従来の方法(解析精度) と比較すると,3つの名詞を1組として扱うことの重要性が確認できる.また, 人間の判断能力と比べると,この種の名詞句では,人間でも係り先の判定に迷う ような事例が近く存在することから,得られた規則の精度は,人間の判断能 力にかなり近い値と言える.
なお,提案した方法では,一度,規則生成に使用した事例は学習事例から削除し, 残された事例から次の次元の規則を生成する(「逐次生成法」)こととしている が,各次元の規則をすべての事例から生成する方法(「同時生成法」)では,得 られた規則による解析精度は向上する.しかし,この方法は,事例削除 の方法に比べて規則数が3倍にも増大する点が問題である.
今後は,提案した方法を複合語解析,数量表現解析など,さまざまな表現解析用 の規則生成に適用し,その効果を確認すると共に,より強力な汎化の方法につい ても検討していきたい.
本研究は,NTTコミュニケーション科学基礎研究所,および,文部省の科学研究費補助金の支援を受けて行われたことを記し,関係各位に深謝する.