今回、原文データは新聞記事を使用している。
下線の処理は、計算機を使って行った処理である。 また、図中の『後処理』とは、単語単位の構成をしていない断片的 な表現を削除する処理であり、プログラムを作成し不要な表現の削除をした。 表現抽出に関してはすべてを計算機で処理することは不可能なので、 人手で抽出した。
連鎖共起表現抽出は弱抑制型で抽出をした。これは、まとまりのあ る表現のみを抽出するためである。無抑制では、まとまりのない断片的な表現 が多数抽出され、強抑制では、部分文字列が一切抽出できないという問題があ るため、弱抑制型連鎖共起表現抽出を使用した。
離散共起表現抽出においても、弱抑制型で抽出をした。これは、定型的な言い 回しを抽出し、その他の表現もある程度抽出できるように、バランスをとっ て抽出するためである。