Next: 目次 Up: 無題 Previous: 無題

概要

機械翻訳などの自然言語処理において、使用頻度の高い表現や定型的な言い回しなどを収集した日本語共起表現辞書が必要とされている。しかし、その辞書に登録する見出し語を、人手で収集することは困難である。そこで、使用頻度の高い表現や定型的な言い回しを自動的に抽出する方法が考えられているが、まだ確立されていない。従来、N-gram統計を応用した方法が提案されているが、抽出される表現には、まだ多数の不要な文字列が混在するため、その後の人手の作業は容易ではない。

そこで本研究では、原文の段階で抽出すべき、単文、重文、名詞句の文型の種類毎に適切な単語置き換えを行なうことによって、効率よく目的とする表現を抽出した。そして、N-gram統計の出力結果に対しても、品詞情報を用いて必要のない表現の削除も行なった。また、出力結果を調査しやすくするために相互情報量を用いて言い回しを絞り込んだ。

上記の手法を毎日新聞 95年度の一面記事 1万文に対して適用し、定型的な言い回しを抽出した。抽出された表現から、共起表現辞書の見出し語となりそう表現を人手で選択した結果、単文、重文、名詞句について、定型的な言い回しの含有率は100%, 50.5%, 87.2%であると分かった。従来に比べて断片的な表現が減少し、単文、重文、名詞句を構成する表現が効率よく抽出できることが確認された。

本手法により、大規模なコーパスから容易に日本語共起表現辞書の見出し語が収集でき、日本語共起表現辞書を作成できる見通しとなった。

MatobaKazuyuki 平成11年4月15日