次へ: 2,000件のデータに対する付与結果
上へ: 係り先データの作成
戻る: 各一致率以上の付与先を正解としたときの,各作業者の間違 い数
目次
本研究では,正解付与先の決定方法として多数決を用いる.そこで,安定した
係り先付与を行うために必要な人数の考察を行った.考察には一致率とκ値を
使用する.
κ値とは,主観的な判断で付与されるタグの一致を,偶然による一致を排除し
て評価するものである.κ値は以下の計算式によって求められる.
Poは一致の確率,Peは不一致の確率である.
なお,以下の説明に出てくる「同数判定」とは,ある判定文の多数決において
最も多く意見のあった係り先が複数有ったことを表す.
それでは,手順を以下に示す.
- 10名の判定者の多数決により,基準となる正解の係り先を決定する.
同数判定となった場合は使用しない.(同数判定となったのは6文な
ので,使用したのは94文)
- 作業者10名から2名を選ぶ組合せを作り,2名による多数決(このとき
も同数判定となった文は使用しない)から仮の正解の係り先を求め,
基準
とした正解の係り先と比較し,それぞれの組合せの一致率から,最大
値と最小値を求める.
- 2名の組合せを3名〜9名まで増やしていき,一致率の変化
を見て,必要な判定者の数について考察する.
結果の図と表を以下に示す.
表 3:
多数決人数と正解係り先決定精度および同数となった係り先数
判定人数 |
最大一致率 |
最小一致率 |
一致率の平均 |
同数判定となっ
た |
|
|
|
|
係り先数の平均 |
1 |
90.43(κ=0.9043) |
80.85(κ=0.8941) |
86.17 |
0 |
2 |
100(κ=1) |
92.96(κ=0.9242) |
97.91 |
21.42 |
3 |
100(κ=1) |
90.11(κ=0.8902) |
95.25 |
4.03 |
4 |
100(κ=1) |
92.22(κ=0.9157) |
96.66 |
4.98 |
5 |
100(κ=1) |
94.51(κ=0.9419) |
98.23 |
4.60 |
6 |
100(κ=1) |
94.51(κ=0.9432) |
98.46 |
2.62 |
7 |
100(κ=1) |
96.70(κ=0.9659) |
98.84 |
1.98 |
8 |
100(κ=1) |
97.83(κ=0.97778) |
99.61 |
2.04 |
9 |
100(κ=1) |
100(κ=1) |
100 |
1.3 |
2名の組合せの時点で,既に最大一致率は100%となり,最小値も90%を越
える結果となった.κ値も高い値いとなっていることから多数決を2名で行っ
てもかなりの精度が期待できる.しかし,表より判定が同数判定となり使用
できない文が非常に多くなってしまうことがわかる.2名の時には平均で判
定文100文に対し,21.4文の同数判定が行われている.以降,作業者の数を
増やしても一致率に大きなのびが無い.また,κ値も総じて高い値いとなっ
ている.以上のことを考慮すると,作業者の数は3名が適当であると考えら
れる.
次へ: 2,000件のデータに対する付与結果
上へ: 係り先データの作成
戻る: 各一致率以上の付与先を正解としたときの,各作業者の間違 い数
目次
平成19年3月25日