近年Web上で個人の情報発信が容易となるに伴い,テキストマイニングに関する 研究が盛んに行われるようになった.製品やサービスに対する要求を抽出するシ ステム[1]や,住民の政治的関心の分析により議員活動への民意の 反映を支援するシステム[2]などが提案されている.
このように,Web 上の文書から情勢や動向を把握するための情報は多種多様であ るが,人々の価値判断をもっとも抽象的につかむ基準として``情緒''が考えられ る.製品やサービス,政治などをトピックとし,トピックに対する``情緒'' の 分布を得ることによって,より詳細な情報を得るための指針となる.トピックに 対する``情緒''の分布は,Web上にある一般的なサイトにおける``情緒''の分布 と比較することにより,特定の``情緒''に偏っているかどうかが分かる.しかし, Web上にある一般的なサイトにおける``情緒''の分布はまだ調査されていない.
本研究では,Web 上の一般サイトにおける``情緒''の分布,および ``情緒''と 共起しやすいキーワードの分布を調査するシステムを試作する.システムは ``Webドキュメント収集・前処理部'',``情緒推定部'',``出力部''の3つの部分 で構成する.
実行の結果,``Webドキュメント収集・前処理部''では,6/25〜11/3の間に約69 万個のHTMLを収集した.文抽出において約4,000万文を抽出し,形態素解析によ り約3,800万文を得た.実行時間はそれぞれ1日13時間,8日19時間であった. ``情緒推定部''では,パターン照合とパターン選択を行い,約14,42万文におい て,適合パターンを得た.また,照合には14カテゴリ合計で72日15時間を要した. ``出力部''では,情緒の分布と得られたキーワードを出力した.情緒の分布にお いては,全体の約6割を《なし》が占め,次いで《好ましい》が12%,《喜び》 が9%と続いた.以上より,提案システムが実現可能であると確認した.また, 各カテゴリごとにトピックとなるキーワードを得ることができ,システムの有用 性を示すことができた.
今後は,提案システムの出力をより人手による推定に近づけるための改良が必要 である.また,キーワードの有効活用も今後の課題である.