next up previous contents
Next: 宛先の明示されたレスの割合 Up: 実験 Previous: 実験の目的   目次

実験の条件

実験に用いるスレッドは「2ちゃんねる」の「みやげ物・特産物板」といわれる 板(スレッド集合)から2012年7月に取得した.「大阪のお土産」をタイトル とするスレッドである.総レス数は,595件であった.本実験では,テストデー タとしてレス1〜100番までのレスを対象とする.

正解データ,すなわち,集約で得られるべき3つ組は,レスごとに手作業で定め る.1つのレスから0件以上の正解データを定めることができる.「大阪のお土産」 においては,100レス中228件であった.

情報抽出の処理の際,商品名,評判情報についての表現は,あらかじめ辞書化し ておいたものを利用する.場所 名については,MeCab[4]を利用して形態素解析結果が「地域」となって いるものを場所名として利用する.したがって,商品名の固有表現抽出および評 価表現抽出は単独でみるとクローズドな実験となっている.



2013-02-23