スレッドの構造解析では,まず,スレッドをレスの単位に分割し,次に,レスと レスの関係を解析する.最後に,これらを有向グラフの形式にまとめる.
レスの単位に分割するために,正規表現を用いる.レスの開始行の特徴は「レス番 号:ハンドルネーム 記述された日時 ID番号」という形式で記述される.レスの終了は次の レスの開始をもって判定することができる.ただし,削除されたレスがあり,そ れは「レス番号:あぼーん:あぼーん」と記述される. 以上を考慮すると,スレッドのレスの分割ができ,各レスから,レス番号,および,本文を抽出できる.
レスとレスの関係の解析とは,レスはある話題について記述する際に,同様
の話題に関するレスに対して同意,反論,補足などの意図をもって書かれることがある.
意図の宛先(以降レスの宛先と呼ぶ)は,本文に明記されることがある.その形式は「>>
レス番号」が基本となり,主に7通りがよく用いられる.
以下に用いられる例を示す.
>>
」+「レス番号(半角)」の組み合わせ(>>2
)
>
」+「レス番号(全角)」の組み合わせ(>2
)
>>
」+「レス番号(半角)」+「さん」の組み合わせ(>>2さん
)
>
」+「レス番号(半角)」の組み合わせ(>2
)
>>
」+「レス番号(半角)」+「-」+「レス番号(半角)」の組み合
わせ(>>2-3
)
>>
」」+「レス番号(半角)」+「>>
」」+「レス番号(半角)」
複数宛先を持ち,連続で記述(>>2>>3
)
そこで,この形式を参照してレス間のつながりを解析する.
有向グラフは,各レスを頂点とし,レスの宛先の関係を有向辺とする. 頂点には,レスに存在する情報が対応付けられる.辺については,始点を宛先と なるレス,終点を同意や反論を行ったレスとする.辺の向きは断片 的な情報が伝播する方向を表す.