next up previous
次へ: 構造規則の記述方法 上へ: 多義解消のための構造規則の生成方法と日本語名詞句への適用 戻る: 多義解消のための構造規則の生成方法と日本語名詞句への適用

はじめに

自然言語処理では,機械翻訳システムの研究開発を中心に,過去10年以上にわたっ て多大な投資が行われ,言語解析アルゴリズムなど,大きく発展してきた(田中 穂積 1989;長尾真 1996;田中穂積 1999)が,解析の過程で発生する表現構造 と意味に関する解釈の曖昧性の問題は,依然として大きな問題となっている.日 本語の構文解析では,特に,述語間の係り受け関係の曖昧さ(白井ほか 1995) と並列構造の識別(黒橋,長尾 1994)が問題とされているが,名詞句(冨浦ほか 1995;菊池,白井 2000)や複合語(小林ほか 1996)の構造の曖昧さも大きな問題 である.英語では,前置詞句の係り先の曖昧さ(隅田ほか 1994)などがクローズ アップされている.また,機械翻訳では,訳文品質低下の最大の原因は,動詞や 名詞の訳語の不適切さにある(麻野間,中岩 1999)とも言われており,訳語選択 の問題(桐澤ほか 1999)は,解決の急がれる問題の一つとなっている.

ところで,このような解釈の曖昧性が発生する原因は,解析アルゴリズムにあ るのではなく,解析に使用される情報や知識の不足にある(Ikehara 1996).曖 昧性は,解析の途中で生じた複数の解釈の候補の中から,正しい解釈が選択でき ないことであるから,選択に必要な情報がある場合は発生しない.これに対し て,解析アルゴリズムは,与えられた情報を使用して解釈を決定する手順である から,優れたアルゴリズムでも,不足している情報を補うことは不可能である. 従って,曖昧性の問題を解決するには,不足する情報を見極め,それが,与えら れた表現から得られないときは,辞書や知識ベースとして外部から補うことが必 要である.

ここで,与えられた表現の意味を決定する問題について考えると,要素合成法 の原理に従えば,表現の意味は,それを構成する単語から合成されることになる. すなわち,辞書によって各単語の語義が与えられると,それらの組み合わせによっ て表現の意味が決定できることになる.このような観点からの研究としては,単 語に対して詳細な語彙情報を用意し,それを組み合わせて表現の意味解釈を生成 する生成意味論の方法(Pustejovsky 1995),オントロジーをベースとした知識 処理の方法(Nierenburg et al. 1992;武田ほか 1995),言語処理のための意 味表現の研究(内海ほか 1993)などがある.しかし,現実の言語表現では,個々 の単語の役割と意味は,与えられた表現の中で,その単語が占める位置に依存し て決定しなければならない場合も多く,そのため,表現構造に関する知識や情報 が必要となる.事例から情報を得て処理を進める方法(長尾 1984;佐藤 1992;Sumita and Iida 1992),単語の共起関係の情報を使用する方法(小林ほか 1996; 麻野間,中岩 1999;Piva Alves, et.al. 1998),さらには,単語の共起関係を パターン化する方法(池原ほか 1993;宇津呂ほか 1993;Almuallim et.al. 1994b;池原ほか 1997)などは,いずれも表現の構造に関する情報を使用 している.

このように,表現構造に関する情報は,曖昧性解消のための重要な手がかりと 言えるが,解析に先立ってこれらの情報を網羅的に収集することは容易でない. 通常,自然言語において,語彙に関する情報は,高々,数十万語が対象と見られ るのに対して,その組み合わせである表現の場合は,ほぼ無限と言える.また, 表現構造には,広い範囲で一般化できるものや,個別的で汎用化の困難なものな どがあり,ばらつきが大きい.

そこで,本論文では,コーパスなどの言語データから曖昧性解消に必要な表 現構造の知識を収集するための方法の一つとして,言語表現とその解釈の関係を 変数とクラスの組からなる構造規則として表現し,学習用標本から半自動的に収 集する方法を提案する[*] .本方式では,対象とする表現を字面による文字列部分 と変数部分(他の単語に置き換え可能な部分で,制約条件を単語の属性で記述す る)からなるパターンで表わし,そのとき使用された変数の組によって表現構造 を定義する.

ところで,このような構造規則によって多様な言語表現をカバーするには,大 量の標本が必要であり,必要とされる規則数も大きいと予想される.また,多数 の規則を相互矛盾なく定義するには,文法属性だけでなく,粒度のきめ細かな (属性数の多い)意味属性の体系が必要になると予想される.

ここで,従来の学習技術との関係をみると,種々の帰納的学習の方法が提案さ れてきたが,学習事例数,意味属性数,生成される規則数が共に大きい問題では 計算が難しい.大規模な木構造からなる意味属性を使用する点から見ると,本論 文の問題は,従来の格フレーム学習(Almuallim, et al. 1994b)と同種の問題 であり,(Haussler 1988)の方法の適用が期待される.しかし,この方法は,学 習事例数の増大に弱く,数千件以上の学習事例では実用的でない.また,事例数 に強い方法としては,(Quinlan 1993)の決定木学習の方法が知られているが,こ の方法は,木構造で表現されるような属性間の背景知識を使用する場合には適用 できない.この問題を解決する方法として,木構造をフラットな属性列にエンコー ディングするなど,いくつかの方法(Quinlan 1993;Almuallin et al. 1994b;アルモアリムほか 1997)が提案されているが,いずれも,事例数,属性数,規 則数が共に大きい問題に対する適用は容易でない[*]

そこで,本論文では,実用性を重視する観点から新しい方法を提案する.本方 式の構造規則は,構造定義に使用された変数の数に着目して,一次元規則,二次 元規則などの次元規則に分類されるが,解析精度を落とさず,汎用的な構造規則 から順に生成することを考え,一次元規則から順に生成する.また,得られた各 次元の構造規則に対し,木構造で表現された文法属性と意味属性の意味的包含関 係を利用した自動的な汎化の方法を示す[*]

本論文では,提案した方法を日本語名詞句に適用してその効果を確認する.具 体的には,「$AのBのC$」の形の名詞句の事例から名詞$A$の係り先を決定する ための解析規則を生成し,生成した規則を解析に使用してその適用範囲(カバー 率)と解析正解率を求める.



Jin'ichi Murakami 平成13年1月17日