next up previous contents
Next: 参考文献 Up: 無題 Previous: 含有率からの考察

結論

本研究では、原文の段階で抽出すべき、単文、重文、名詞句の文型の種類毎に 適切な単語置き換えを行なうことによって、効率よく目的とする表現を抽出し た。そして、N-gram統計の出力結果に対しても、品詞情報を用いて必要のな い表現の削除も行なった。また、出力結果を調査しやすくするために相互情報 量を用いて言い回しを絞り込んだ。

上記の手法を毎日新聞 95年度の一面記事 1万文に対して適用し、定型的な言 い回しを抽出した。抽出された表現から、共起表現辞書の見出し語となりそう 表現を人手で選択した結果、単文、重文、名詞句について、定型的な言い回し の含有率は100%, 50.5%, 87.2%であると分かった。従来に比べて断片的な 表現が減少し、単文、重文、名詞句を構成する表現が効率よく抽出できること が確認された。しかし、例文を参照した検討により、本当の意味での言い回し の含有率は現在の値より下がる可能性がある。

本手法により、大規模なコーパスから容易に日本語共起表現辞書の見出し語が 収集でき、日本語共起表現辞書を作成できる見通しとなった。

今後の課題としては、本手法を大規模なコーパスに対して適用することで、日 本語共起表現辞書の見出し語を増やしてことがあげられる。また、他分野のコー パスに適用することで、分野に適した表現辞書の開発も可能である。

本手法では、N-gram統計の後処理という形で単語境界を利用し、断片的な文 字列の削除を行なったが、N-gram統計の内部処理として行なうことで、処理 時間の大幅な向上と処理の効率化が見込まれる。



MatobaKazuyuki 平成11年4月15日