機械翻訳などの自然言語処理において、使用頻度の高い表現や定型的な言い回し などを収集した日本語共起表現辞書が必要とされている。しかし、その辞書 に登録する見出し語を、人手で収集することは困難である。そこで、使用頻度 の高い表現や定型的な言い回しを自動的に抽出する方法が考えられているが、 まだ確立されていない。これに対して、従来、N-gram統計処理を応用した連鎖 共起表現を使った手法や、表現の種類毎(単文、重文、名詞句)に適切な単語置 き換えを行なって、効率よく目的の表現を抽出する方法が提案されている。しか し、これは非常に単純の表現の抽出しか提案されていない。特に、名詞句の場合 では、今までの研究の中に単純の表現「助詞+名詞」の定型的な言い回しのみ を抽出する方法が提案されている。
名詞句、特に名詞句と名詞句を「の」で結んだ「XのY」という名詞句は、日本語 でよく現れる表現である。その他にも連体詞、形容詞、形容動詞などを含まれて いる名詞句が多く現れている。そこで本研究では、名詞句に限定して名詞句の定 型的な構造を抽出することを試みる。
実験は対訳コーパス毎日新聞 95年度の一面記事 1万文に適用し、 定型的な名詞句の構造を抽出した。抽出された表現から、適正な名詞句の構造を 人手で選択した結果、適正の表現の含有率は43.7%であることが分かった。従来 に比べて、かなり数多くの名詞句の構造の存在が確認された。