本研究では、日本語共起表現辞書の作成を主眼としている。そのためには定型 的な言い回しを自動的に抽出が必要である。しかし、完全に自動な抽出は現実 には不可能であるため、最終段階では人手によって各言い回しの正当性を検証 する。
従来、[2]の方法を用いた以下のようなN-gram統計を応用した言 い回しの抽出法が提案されている。単語の置き換えを行なう方法 [3] や、単語単位に変換した原文データに対して、N-gramを適用 する方法[4] 等が存在する。
置換えを用いたN-gramによる言語表現の抽出[3] では、対象とな る原文データに対して、(1)数字の置き換え、(2)企業名の置き換え、及び、企 業名が連続している部分をひとまとまりにしての変換、(3)括弧内の省略、(4) 引用文全体の置き換えを行なっている。原文データに変換を施すと、N-gram 出力時の表現パターンを減らせる結果となることが報告されている。しかし、 言い回しを抽出するまでには至っていない。
また、N-gram統計を応用した文型パターンの自動抽出法の研究 [4] では、原文データに対して、単語境界を付加し対象データを文 字列データとしてでなく、単語列データとして扱う。また、名詞の中の数詞、 固有名詞を縮退させた。単語境界付加により断片的な文字列の抑制ができ、1 文字単語の抽出が可能となった。名詞の縮退により同一表現がまとめられたこ とが報告されている。
しかし、上記[3,4]の手法では、まだ多数の不要な文字列が混 在するため、その後の人手の作業は容易ではない。
そこで本研究では、原文の段階で抽出すべき、単文、重文、名詞句の文型の種 類毎に適切な置き換えを行なうことによって、効率よく目的とする表現を抽出 する。そして、N-gram統計の出力結果に対しても品詞情報を用いて、必要の ない表現の削除も行う。また、出力結果を調査しやすくするために相互情報量 を用いて言い回しを絞り込んだ。