Next: N-gram統計処理による共起表現 Up: 無題 Previous: まえがき

N-gram統計の問題点

本研究では、日本語共起表現辞書の作成を主眼としている。そのためには定型的な言い回しを自動的に抽出が必要である。しかし、完全に自動な抽出は現実には不可能であるため、最終段階では人手によって各言い回しの正当性を検証する。

従来、[2]の方法を用いた以下のようなN-gram統計を応用した言い回しの抽出法が提案されている。単語の置き換えを行なう方法 [3] や、単語単位に変換した原文データに対して、N-gramを適用する方法[4] 等が存在する。

置換えを用いたN-gramによる言語表現の抽出[3] では、対象となる原文データに対して、(1)数字の置き換え、(2)企業名の置き換え、及び、企業名が連続している部分をひとまとまりにしての変換、(3)括弧内の省略、(4) 引用文全体の置き換えを行なっている。原文データに変換を施すと、N-gram 出力時の表現パターンを減らせる結果となることが報告されている。しかし、言い回しを抽出するまでには至っていない。

また、N-gram統計を応用した文型パターンの自動抽出法の研究 [4] では、原文データに対して、単語境界を付加し対象データを文字列データとしてでなく、単語列データとして扱う。また、名詞の中の数詞、固有名詞を縮退させた。単語境界付加により断片的な文字列の抑制ができ、1 文字単語の抽出が可能となった。名詞の縮退により同一表現がまとめられたことが報告されている。

しかし、上記[3,4]の手法では、まだ多数の不要な文字列が混在するため、その後の人手の作業は容易ではない。

そこで本研究では、原文の段階で抽出すべき、単文、重文、名詞句の文型の種類毎に適切な置き換えを行なうことによって、効率よく目的とする表現を抽出する。そして、N-gram統計の出力結果に対しても品詞情報を用いて、必要のない表現の削除も行う。また、出力結果を調査しやすくするために相互情報量を用いて言い回しを絞り込んだ。

MatobaKazuyuki 平成11年4月15日