Next: N-gram統計の問題点 Up: 無題 Previous: 表目次

まえがき

機械翻訳などの自然言語処理において、使用頻度の高い表現や定型的な言い回しなどを収集した日本語共起表現辞書が必要とされている。しかし、その辞書に登録する見出し語を、人手で収集することは困難である。そこで、使用頻度の高い表現や定型的な言い回しを自動的に抽出する方法が考えられているが、まだ確立されていない。従来、N-gram統計を応用する方法が提案されているが、抽出される表現には、まだ多数の不要な文字列が混在するため、その後の人手の作業は容易ではない。

N-gram統計を用いた表現抽出の方法として、[1,2]の研究がある。文献[1]では大量の言語データを対象に、N-gram統計を高速に実行する方法が提案されている。この方法を用いることで、言語データ内の任意の長さの文字列を自動的に抽出し、その出現回数をカウントできる。この結果、原文中に現われる文字列を、その長さの順かつ出現頻度の高い順に集計できることが報告されている。しかし、この方法では意味的にまとまりのない断片的な文字列が多数抽出されるという問題があった。

この問題を解決する方法として、[2]の方法が提案されている。この方法は大量の言語データから、使用頻度の高い表現および表現の組を自動的に発見し集計する方法である。具体的には、まず、任意のN-gramの計算法として提案された[1]のアルゴリズムを独立性の高い表現を抽出する観点から改良し、言語データ中に2回以上出現した文字列(連鎖型共起表現)を「一度、抽出した文字列の部分文字列は、その後、抽出しない」という条件下で、もれなく自動的に抽出し集計する方法である。また、この方法で抽出された文字列を組み合わせて、文中の離れた位置に共起する文字列の組(離散型共起表現)を抽出し、頻度を求める方法も[2]で提案されている。

そして、従来、単語の置き換えを行なう方法[3] や、単語単位に変換した原文データに対して、N-gramを適用する方法[4] 等が [2]の方法を改良した方法として提案されている。

置換えを用いたN-gramによる言語表現の抽出[3] では、対象となる原文データに対して、(1)数字の置き換え、(2)企業名の置き換え、及び、企業名が連続している部分をひとまとまりにしての変換、(3)括弧内の省略、(4) 引用文全体の置き換えを行っている。このような原文データに変換を施すと、 N-gram出力時の表現パターンを減らせる結果となる。しかし、言い回しを抽出するまでには至っていない。

また、N-gram統計を応用した文型パターンの自動抽出法の研究 [4] では、原文データに対して、単語境界を付加し対象データを文字列データとしてでなく、単語列データとして扱っている。また、名詞の中の数詞、固有名詞を縮退させた。単語境界付加により断片的な文字列の抑制ができ、1文字単語の抽出が可能となった。名詞の縮退により同一表現がまとめられたことが報告されている。

しかし、上記[3,4]の手法では、まだ多数の不要な文字列が混在するため、その後の人手の作業は容易ではない。

そこで本研究では、原文の段階で抽出すべき、単文、重文、名詞句の文型の種類毎に適切な置き換えを行なうことによって、効率よく目的とする表現を抽出する。そして、N-gram統計の出力結果に対しても品詞情報を用いて、必要のない表現の削除も行う。また、出力結果を調査しやすくするために相互情報量を用いて言い回しを絞り込んだ。

上記の手法をプログラム化し、毎日新聞 95年度の一面記事 1万文に対して適用して、定型的な言い回しの抽出を行なった。

以下、2章ではN-gram統計の問題点について、3章ではN-gram統計処理による共起表現について、4章で日本語共起表現辞書の作成方法について、そして、 5章では実験結果と考察について、最後に7章で結論を述べる。

MatobaKazuyuki 平成11年4月15日