next up previous contents
Next: 本研究の位置づけ Up: 存在物と場所の対応検出 Previous: IOBタグの推定と抽出   目次

物と場所の対応検出と評価

ブログ記事内にある存在物と場所の対応をSVMを用いて検出する.抽出した存在物の1つずつに注目し,その存在物ごとに,対応する場所を検出するタスクとする.

1つの記事内全ての各場所を,注目する存在物とペアとする.各ペアが対応するべきか否かを,次の素性を用いて,SVMで判定する.

f1
存在物と場所の単語距離が全ペアのうち最短か否か.
f2
存在物/場所の表現(チャンク)の係り先の動詞の基本形のペア.
f3
存在物や場所の表現を含む文に出現する名詞および動詞の意味コード(日本語語彙大系の一般名詞意味属性および用言意味属性)のペア.
f4
場所の表現の直後の助詞.
f5
存在物と場所の間にある単語と,各ペアの末尾側の存在物/場所から文末側にある動詞または文末までの単語.

SVMの判定は,素性の組み合わせ方により次の4通りとする.

M1:
f1 およびf2 を用いる手法
M2:
f1,f2,および,f3 を用いる手法
M3:
f1,f2,および,f4 を用いる手法
M4:
f1,f2,および,f5 を用いる手法
さらにSVMのスコアが正値かつ最大値のペアを推定結果とする方法Msgx,および,正値のペアをすべて推定結果とする方法Mplxを設ける(x = 1; 2; 3; 4).

存在物と場所の得られるべきリンク数は2,240であり,この数についての評価結果を表3に示す. ドクターイエローの存在場所について,得られるべき場所の文字列の異なり数は95であり,この数についての評価結果を表4 に示す. ここで,適合率3#3 = (一致数)/(推定数),再現率6#6 = (一致数)/(得られるべき数)である. 前者の結果より,F値ではMpl2 やMpl4 が優れるが,後者の結果によるとその限りではない. 特にMpl2では「加島」という特定の表現が目立った.機械学習により特定の語が集められたためと考える.


表 2.4: 対応検出の評価(リンク単位)
手法 3#3 6#6 F値 一致数 推定数
B2 0.75 0.19 0.30 422 566
Msg1 0.72 0.18 0.29 407 566
Msg2 0.64 0.16 0.25 356 560
Msg3 0.72 0.18 0.29 409 566
Msg4 0.60 0.15 0.24 341 566
Mpl1 0.61 0.25 0.37 564 926
Mpl2 0.54 0.48 0.50 1,083 2,015
Mpl3 0.57 0.28 0.38 634 1,106
Mpl4 0.46 0.56 0.50 1,247 2,725


表 2.5: 対応検出の評価(名称単位)
手法 3#3 6#6 F値 一致数 推定数
B2 0.82 0.57 0.67 54 66
Mpl1 0.60 0.63 0.62 60 100
Mpl2 0.82 0.13 0.22 12 15
Mpl3 0.59 0.69 0.63 66 112
Mpl4 0.38 0.08 0.13 8 21


next up previous contents
Next: 本研究の位置づけ Up: 存在物と場所の対応検出 Previous: IOBタグの推定と抽出   目次
root 2015-03-17