機械翻訳などの自然言語処理において、使用頻度の高い表現や定型的な言い回 しなどを収集した日本語共起表現辞書が必要とされている。しかし、その辞書 に登録する見出し語を、人手で収集することは困難である。そこで、使用頻度 の高い表現や定型的な言い回しを自動的に抽出する方法が考えられているが、 まだ確立されていない。従来、N-gram統計を応用する方法が提案されている が、抽出される表現には、まだ多数の不要な文字列が混在するため、その後の 人手の作業は容易ではない。
N-gram統計を用いた表現抽出の方法として、[1,2]の研究が ある。文献[1]では大量の言語データを対象に、N-gram統計を高速 に実行する方法が提案されている。この方法を用いることで、言語データ内の 任意の長さの文字列を自動的に抽出し、その出現回数をカウントできる。この 結果、原文中に現われる文字列を、その長さの順かつ出現頻度の高い順に集計 できることが報告されている。しかし、この方法では意味的にまとまりのない 断片的な文字列が多数抽出されるという問題があった。
この問題を解決する方法として、[2]の方法が提案されている。こ の方法は大量の言語データから、使用頻度の高い表現および表現の組を自動的 に発見し集計する方法である。具体的には、まず、任意のN-gramの計算法と して提案された[1]のアルゴリズムを独立性の高い表現を抽出する観 点から改良し、言語データ中に2回以上出現した文字列(連鎖型共起表現)を 「一度、抽出した文字列の部分文字列は、その後、抽出しない」という条件下 で、もれなく自動的に抽出し集計する方法である。また、この方法で抽出され た文字列を組み合わせて、文中の離れた位置に共起する文字列の組(離散型共 起表現)を抽出し、頻度を求める方法も[2]で提案されている。
そして、従来、単語の置き換えを行なう方法[3] や、単語単位に変 換した原文データに対して、N-gramを適用する方法[4] 等が [2]の方法を改良した方法として提案されている。
置換えを用いたN-gramによる言語表現の抽出[3] では、対象とな る原文データに対して、(1)数字の置き換え、(2)企業名の置き換え、及び、企 業名が連続している部分をひとまとまりにしての変換、(3)括弧内の省略、(4) 引用文全体の置き換えを行っている。このような原文データに変換を施すと、 N-gram出力時の表現パターンを減らせる結果となる。しかし、言い回しを抽 出するまでには至っていない。
また、N-gram統計を応用した文型パターンの自動抽出法の研究 [4] では、原文データに対して、単語境界を付加し対象データを文 字列データとしてでなく、単語列データとして扱っている。また、名詞の中の 数詞、固有名詞を縮退させた。単語境界付加により断片的な文字列の抑制がで き、1文字単語の抽出が可能となった。名詞の縮退により同一表現がまとめら れたことが報告されている。
しかし、上記[3,4]の手法では、まだ多数の不要な文字列が混 在するため、その後の人手の作業は容易ではない。
そこで本研究では、原文の段階で抽出すべき、単文、重文、名詞句の文型の種 類毎に適切な置き換えを行なうことによって、効率よく目的とする表現を抽出 する。そして、N-gram統計の出力結果に対しても品詞情報を用いて、必要の ない表現の削除も行う。また、出力結果を調査しやすくするために相互情報量 を用いて言い回しを絞り込んだ。
上記の手法をプログラム化し、毎日新聞 95年度の一面記事 1万文に対して適用し て、定型的な言い回しの抽出を行なった。
以下、2章ではN-gram統計の問題点について、3章ではN-gram統計処理によ る共起表現について、4章で日本語共起表現辞書の作成方法について、そして、 5章では実験結果と考察について、最後に7章で結論を述べる。