next up previous contents
次へ: 本手法で用いる技術に関する研究 上へ: 関連研究 戻る: 関連研究   目次

Webデータを対象とした情報収集に関する研究

Web上の口コミ情報の重要性に着目し,評価表現と評価理由の因果関係を利用し た,高野らによる評判情報の自動抽出がある[1].まず,高野らは, Web上におけるホテルに関する掲示板の書き込み情報から,評価理由を伴う評価 表現(例:[A]なので[B]; A: 評価理由,B: 評価表現)を抽出した.次に,抽出 した評価理由を種として,評価表現を取得した.このように,評価理由と評価表 現を交互に取得することで,評判情報を自動的に抽出した.この手法を用いて, 定性的な評価を行ったところ,評判対象ごとの固有な評判情報が取得された.

石野らは,旅行に関するブログエントリから自動的にリンクを取得し,観光情報 に関するリンク集を構築する手法を提案している[2].まず,複数のエ ントリに渡り旅行記事を書いているブログ著者がいることを考慮し,取得目標と なるエントリとその前後エントリに着目し,機械学習(CRF)を用いて旅行ブログ エントリを取得した.次に,取得したエントリから,観光情報に関するリンクを 自動取得した.ここで,ブログ著者がエントリにて紹介した観光に関するリンク に対して,旅行者が行った施設や宿泊地といった,リンクの種類(文献 [2]では,リンクタイプと呼ぶ)を設定している.リンクタイプの判定 には,リンク情報が述べられている部分の各単語と,リンクの手がかりとなる語 を素性とした機械学習を用いている.以上の手法を評価するため,人手で付与し たリンクタイプを正解とし,機械が出力したリンクタイプの精度と再現率を算出 したところ,精度が7割以上,再現率が6割以上となり,文献[2]の手法 の有効性は示された.

観光評判情報の抽出において,山田の,形容詞や品詞の並びに注目した抽出 がある[3].山田は,評判情報に形容詞がよく使用されていることに 注目して,形容詞を主軸とした品詞の組合せを作成した.作成した組合せを用い て,ブログ記事に対してフィルタリングを行うことで評判情報を取得した. 文献[3]の手法の評価実験として,フィルタリングによる評判情報の 取得結果が評判情報であるかどうかを人手で評価したところ,約7割が評判情報 であると判断された.



平成23年3月1日