1つの記事内全ての各場所を,注目する存在物とペアとする.各ペアが対応するべきか否かを,次の素性を用いて,SVMで判定する.
SVMの判定は,素性の組み合わせ方により次の4通りとする.
存在物と場所の得られるべきリンク数は2,240であり,この数についての評価結果を表3に示す. ドクターイエローの存在場所について,得られるべき場所の文字列の異なり数は95であり,この数についての評価結果を表4 に示す. ここで,適合率3#3 = (一致数)/(推定数),再現率6#6 = (一致数)/(得られるべき数)である. 前者の結果より,F値ではMpl2 やMpl4 が優れるが,後者の結果によるとその限りではない. 特にMpl2では「加島」という特定の表現が目立った.機械学習により特定の語が集められたためと考える.
手法 | 3#3 | 6#6 | F値 | 一致数 | 推定数 |
B2 | 0.75 | 0.19 | 0.30 | 422 | 566 |
Msg1 | 0.72 | 0.18 | 0.29 | 407 | 566 |
Msg2 | 0.64 | 0.16 | 0.25 | 356 | 560 |
Msg3 | 0.72 | 0.18 | 0.29 | 409 | 566 |
Msg4 | 0.60 | 0.15 | 0.24 | 341 | 566 |
Mpl1 | 0.61 | 0.25 | 0.37 | 564 | 926 |
Mpl2 | 0.54 | 0.48 | 0.50 | 1,083 | 2,015 |
Mpl3 | 0.57 | 0.28 | 0.38 | 634 | 1,106 |
Mpl4 | 0.46 | 0.56 | 0.50 | 1,247 | 2,725 |
手法 | 3#3 | 6#6 | F値 | 一致数 | 推定数 |
B2 | 0.82 | 0.57 | 0.67 | 54 | 66 |
Mpl1 | 0.60 | 0.63 | 0.62 | 60 | 100 |
Mpl2 | 0.82 | 0.13 | 0.22 | 12 | 15 |
Mpl3 | 0.59 | 0.69 | 0.63 | 66 | 112 |
Mpl4 | 0.38 | 0.08 | 0.13 | 8 | 21 |