next up previous
次へ: 文献目録 上へ: 多義解消のための構造規則の生成方法と日本語名詞句への適用 戻る: (3)規則生成に使用する事例数の閾値について

あとがき

自然言語処理において,さまざまな解釈の曖昧さを解消するための知識を構造規 則として記述する方法と,その規則を事例から半自動的に収集する方法を提案し た.これは,従来の要素合成法的な方式では解決できない曖昧さの解消を狙った もので,解釈の曖昧さが問題となる表現を一つの表現単位として扱うことを基本 としている.本方式の技術的特徴については,以下の通りである.

本方式では,解釈の曖昧性が問題となる表現を,まず,変数部分と字面の部分か らなるパターンで表現した後,構造規則を変数部分に対する制約条件と解釈の組 によって定義した.変数部分の記述では,「オールマイティ記号」,「文法属 性」,「意味属性」,「字面」の4種類の記号の使い分けが可能で,汎用的な規 則から個別的で慣用的な表現まで柔軟に表現できる.

次に,生成される規則は,オールマイティ以外の記号が使用される変数部分の数 によって次元規則のグループに分類され,各グループの中で汎化が行われる.例 えば,$N$個の変数を持つ表現パターンの場合,一次元規則から$N$次元規則までの 規則と字面からなる例外規則を合わせて$N+1$のグループの構造規則が,順に生 成される.汎化は,各次元の特徴空間の中で,木構造で表現された文法属性もし くは意味属性の意味的な包含関係を辿ることにより,容易に実行されるが,この とき,「実際の表現解析では,構造規則は生成された順に適用される」ことを前 提に,一度,規則生成に使用された事例を事例集合から削除することにより,汎 化領域の拡大と規則数の削減を図っている.

本方式を「$AのBのC$」の型の名詞句に対する名詞間の係り受け解析規則の生成 に適用した結果では,変数部分を意味属性で表現した構造規則の場合,1万件の 学習事例から,一次元規則198件,二次元規則1,480件,三次元規則136件が得ら れた.そのカバー率は,$89.8\%$であったが,この値は,学習用の標本に含まれる 名詞の種類が全体(約2,700種類)の半分以下(1,000〜1,300種類)であった点 から見てかなり高い.これを使用した係り受け解析では,約86%の解析精度が得 られた.また,変数部分を文法属性で表した規則と意味属性で表した規則を併用 する場合は,解析精度は,$1〜2\%$向上する.

これらを,2名詞間の結合強度に還元して評価する従来の方法(解析精度$72\%$) と比較すると,3つの名詞を1組として扱うことの重要性が確認できる.また, 人間の判断能力と比べると,この種の名詞句では,人間でも係り先の判定に迷う ような事例が$10\%$近く存在することから,得られた規則の精度は,人間の判断能 力にかなり近い値と言える.

なお,提案した方法では,一度,規則生成に使用した事例は学習事例から削除し, 残された事例から次の次元の規則を生成する(「逐次生成法」)こととしている が,各次元の規則をすべての事例から生成する方法(「同時生成法」)では,得 られた規則による解析精度は$2〜3\%$向上する.しかし,この方法は,事例削除 の方法に比べて規則数が3倍にも増大する点が問題である.

今後は,提案した方法を複合語解析,数量表現解析など,さまざまな表現解析用 の規則生成に適用し,その効果を確認すると共に,より強力な汎化の方法につい ても検討していきたい.

本研究は,NTTコミュニケーション科学基礎研究所,および,文部省の科学研究費補助金の支援を受けて行われたことを記し,関係各位に深謝する.



Jin'ichi Murakami 平成13年9月13日