next up previous contents
次へ: 2,000件のデータに対する付与結果 上へ: 係り先データの作成 戻る: 各一致率以上の付与先を正解としたときの,各作業者の間違 い数   目次

多数決の必要人数決定

本研究では,正解付与先の決定方法として多数決を用いる.そこで,安定した 係り先付与を行うために必要な人数の考察を行った.考察には一致率とκ値を 使用する.

κ値とは,主観的な判断で付与されるタグの一致を,偶然による一致を排除し て評価するものである.κ値は以下の計算式によって求められる.

\begin{displaymath}κ = (Po - Pe) / ( 1 - Pe)\end{displaymath}

Poは一致の確率,Peは不一致の確率である.

なお,以下の説明に出てくる「同数判定」とは,ある判定文の多数決において 最も多く意見のあった係り先が複数有ったことを表す.

それでは,手順を以下に示す.

  1. 10名の判定者の多数決により,基準となる正解の係り先を決定する. 同数判定となった場合は使用しない.(同数判定となったのは6文な ので,使用したのは94文)
  2. 作業者10名から2名を選ぶ組合せを作り,2名による多数決(このとき も同数判定となった文は使用しない)から仮の正解の係り先を求め, 基準 とした正解の係り先と比較し,それぞれの組合せの一致率から,最大 値と最小値を求める.
  3. 2名の組合せを3名〜9名まで増やしていき,一致率の変化 を見て,必要な判定者の数について考察する.
結果の図と表を以下に示す.
図 2: 多数決人数と正解係り先決定精度の関係
\includegraphics[width=30zw,clip]{ek2.eps}

表 3: 多数決人数と正解係り先決定精度および同数となった係り先数
判定人数 最大一致率 最小一致率 一致率の平均 同数判定となっ た
        係り先数の平均
1 90.43(κ=0.9043) 80.85(κ=0.8941) 86.17 0
2 100(κ=1) 92.96(κ=0.9242) 97.91 21.42
3 100(κ=1) 90.11(κ=0.8902) 95.25 4.03
4 100(κ=1) 92.22(κ=0.9157) 96.66 4.98
5 100(κ=1) 94.51(κ=0.9419) 98.23 4.60
6 100(κ=1) 94.51(κ=0.9432) 98.46 2.62
7 100(κ=1) 96.70(κ=0.9659) 98.84 1.98
8 100(κ=1) 97.83(κ=0.97778) 99.61 2.04
9 100(κ=1) 100(κ=1) 100 1.3

2名の組合せの時点で,既に最大一致率は100%となり,最小値も90%を越 える結果となった.κ値も高い値いとなっていることから多数決を2名で行っ てもかなりの精度が期待できる.しかし,表より判定が同数判定となり使用 できない文が非常に多くなってしまうことがわかる.2名の時には平均で判 定文100文に対し,21.4文の同数判定が行われている.以降,作業者の数を 増やしても一致率に大きなのびが無い.また,κ値も総じて高い値いとなっ ている.以上のことを考慮すると,作業者の数は3名が適当であると考えら れる.


next up previous contents
次へ: 2,000件のデータに対する付与結果 上へ: 係り先データの作成 戻る: 各一致率以上の付与先を正解としたときの,各作業者の間違 い数   目次
平成19年3月25日