next up previous contents
次へ: 謝辞 上へ: honron 戻る: ドメインの分布   目次

おわりに

Web上の文書から情勢や動向を把握するための情報は多種多様であるが,本研究 では,意見や評判などの価値判断をもっとも抽象的につかむ基準である``情緒'' に着目した.例えば,製品やサービス,政治などをトピックとし,トピックに対 する``情緒'' の分布がどのようであるかを得ることによって,より詳細な情報 を得るための指針となる.トピックに対する``情緒''の分布は,Web上にある一 般的なサイトにおける``情緒''の分布と比較することにより,特定の``情緒'' に偏っているかどうかが分かる.しかし,Web上にある一般的なサイトにおける ``情緒''の分布はまだ調査されていなかった.

本研究では,Web上の一般サイトにおける``情緒''の分布,および``情緒''と共 起しやすいキーワードの分布を調査するシステムの試作を行った.実行の結果, 6/25〜11/3の間に約69 万個のHTMLを収集した.文抽出において約4,000万文を抽 出し,形態素解析により約3,800万文を得た.実行時間はそれぞれ1日13時間,8 日19時間であった.情緒推定ではパターン照合とパターン選択を行い,約1,442 万文において,適合パターンを得た.また,照合には14カテゴリ合計で72日15時 間を要した.以上の結果を集計し,情緒の分布と得られたキーワードを出力した. 以上より,提案システムが実現可能であると確認した.また,各カテゴリごとに トピックとなるキーワードを得ることができ,システムの有用性を示すことがで きた.

今後は,提案システムの出力をより人手による推定に近づけるための改良が必要 である.また,キーワードの有効活用も今後の課題である.



平成21年3月23日