next up previous contents
次へ: 判定方法 上へ: 文末表現の利用: 戻る: 文末表現の利用:   目次

コメント-返答の対のモデル化

ここで,コメント元とコメント先の対を大量を得る必要がある. そこで,「みんカラ(みんなのカーライフ)」[5]を参照する. 「みんカラ」はブログ記事のコメントに対してブログ著者からの返答が1対1対応で記述される.よって,「みんカラ」の返答付コメントを収集することでコメント-返答の対を大量に収集することが可能である. 図3.7にその様子を示す.

図: みんカラブログ外観構造
\includegraphics[width=110mm,height=140mm]{minkaratemple.eps}

次に,モデル化の方法を説明する. まず,文末表現の認定条件を以下に示す.

次に,文末表現は多様であるため,文末表現を構成する任意の3文字に注目し, コメントと返事のブロック対から3文字対を全通り抽出する.そして,その対の頻度を求める.

ここで,2つの3文字列 $ s_1$ , $ s_2$ がコメント-返事のブロック対に出現した回数を返す関数を $ f_{\mathit{cr}}( s_1, s_2 )$ とする. $ s_1$$ s_2$ がコメント-返事のブロック対に出現しやすく,逆に $ s_2$$ s_1$ がコメント-返事のブロック対に出現しにくいことを表す関数 $ s_{\mathit{SFX3}}( s_1, s_2 ) $ を 次式で定義する.

$\displaystyle s_{\mathit{SFX3}}( s_1, s_2 ) = \log \{ f_{\mathit{cr}}( s_1, s_2 ) + d \} - \log \{ f_{\mathit{cr}}( s_2, s_1 ) + d \}$     (3.3)

ここで,$ d$ は定数(本研究では $ d = 0.5$ とした)である.
$ M_{\mathit{SFX3}}$ のモデル化のために,2,980件のブログ記事を利用した. 得られた3文字列の組は,55,237組であった. $ s_{\mathit{SFX3}}$ のスコアの高いものを幾つか表2に例示する.


表: コメント返答文末表現対の例
コメント文末 返答文末 スコア
めでと ありが 4.330733
おめで ありが 4.330733
めでと りがと 4.317488
んばん おはよ 3.583516
めでと うござ 3.583519
でとう うござ 3.540959
ですね ますm 2.833213
すね! www 2.833213


next up previous contents
次へ: 判定方法 上へ: 文末表現の利用: 戻る: 文末表現の利用:   目次
平成23年4月13日