機械翻訳などの自然言語処理において、使用頻度の高い表現や定型的な言い回 しなどを収集した日本語共起表現辞書が必要とされている。しかし、その辞書 に登録する見出し語を、人手で収集することは困難である。そこで、使用頻度 の高い表現や定型的な言い回しを自動的に抽出する方法が考えられているが、 まだ確立されていない。従来、N-gram統計を応用した方法が提案されている が、抽出される表現には、まだ多数の不要な文字列が混在するため、その後の 人手の作業は容易ではない。
そこで本研究では、原文の段階で抽出すべき、単文、重文、名詞句の文型の種 類毎に適切な単語置き換えを行なうことによって、効率よく目的とする表現を 抽出した。そして、N-gram統計の出力結果に対しても、品詞情報を用いて必 要のない表現の削除も行なった。また、出力結果を調査しやすくするために相 互情報量を用いて言い回しを絞り込んだ。
上記の手法を毎日新聞 95年度の一面記事 1万文に対して適用し、定型的な言 い回しを抽出した。抽出された表現から、共起表現辞書の見出し語となりそう 表現を人手で選択した結果、単文、重文、名詞句について、定型的な言い回し の含有率は100%, 50.5%, 87.2%であると分かった。従来に比べて断片的な 表現が減少し、単文、重文、名詞句を構成する表現が効率よく抽出できること が確認された。
本手法により、大規模なコーパスから容易に日本語共起表現辞書の見出し語が 収集でき、日本語共起表現辞書を作成できる見通しとなった。