next up previous contents
Next: レスからの情報抽出 Up: 情報抽出の提案 Previous: 情報抽出の提案   目次

スレッドの構造解析

スレッドの構造解析では,まず,スレッドをレスの単位に分割し,次に,レスと レスの関係を解析する.最後に,これらを有向グラフの形式にまとめる.

レスの単位に分割するために,正規表現を用いる.レスの開始行の特徴は「レス番 号:ハンドルネーム 記述された日時 ID番号」という形式で記述される.レスの終了は次の レスの開始をもって判定することができる.ただし,削除されたレスがあり,そ れは「レス番号:あぼーん:あぼーん」と記述される. 以上を考慮すると,スレッドのレスの分割ができ,各レスから,レス番号,および,本文を抽出できる.

レスとレスの関係の解析とは,レスはある話題について記述する際に,同様 の話題に関するレスに対して同意,反論,補足などの意図をもって書かれることがある. 意図の宛先(以降レスの宛先と呼ぶ)は,本文に明記されることがある.その形式は「>>レス番号」が基本となり,主に7通りがよく用いられる. 以下に用いられる例を示す.

  1. >>」+「レス番号(半角)」の組み合わせ(>>2)
  2. 」+「レス番号(全角)」の組み合わせ(>2)
  3. >>」+「レス番号(半角)」+「さん」の組み合わせ(>>2さん)
  4. >」+「レス番号(半角)」の組み合わせ(>2)
  5. >>」+「レス番号(半角)」+「-」+「レス番号(半角)」の組み合 わせ(>>2-3)
  6. 「レス番号(半角)」+「さん」の組み合わせ(2さん)
  7. >>」」+「レス番号(半角)」+「>>」」+「レス番号(半角)」 複数宛先を持ち,連続で記述(>>2>>3)

そこで,この形式を参照してレス間のつながりを解析する.

有向グラフは,各レスを頂点とし,レスの宛先の関係を有向辺とする. 頂点には,レスに存在する情報が対応付けられる.辺については,始点を宛先と なるレス,終点を同意や反論を行ったレスとする.辺の向きは断片 的な情報が伝播する方向を表す.



2013-02-23