情報を集約する手法として,正規表現を用いてスレッドをレスごとに分割をした. 次に,レスの宛先を有向グラフとしてデータ構造にした.そして,各レスからの 情報の抽出を行い,有向グラフをたどることで断片的な情報を集約した.
掲示板の1つである「2ちゃんねる」を対象とした実験において,集約を行わない場合の適合率0.22,再現率0.50, 値0.27に比べ,集約を行うことで適合率0.24,再現率0.55, 値0.30と性能の向上を確認することができた.
残された問題として,過剰に3つ組が生成される問題があげられる.具体的には, 集約により3つ組が増大する問題および,言語解析力の問題があげられた. 今後の課題は,過剰に出力された3つ組を除去することで性能を向上させることであ る.