出現頻度と連接頻度に基づく専門用語抽出

中川ら[2]はテキストデータから専門用語を取り出すため, 専門用語自動抽出システム(TermExtract)を作成した. TermExtractは名詞(単名詞と複合名詞)を対象として専門用語抽出を行うシステムである. まず対象となるコーパスから専門用語の候補となる語を抽出し, 次に各候補語の専門用語としての重要度を計算する. その結果, スコアの高い順に候補語をソートしたものを出力している. なお, 重要度計算に単名詞バイグラムを用いることにより, 複合名詞がどのような単名詞で構成されているかという連接情報と候補語の頻度情報を専門用語かどうかの手掛かりとしている.