next up previous contents
次へ: RIBES 上へ: 自動評価 戻る: NIST   目次

METEOR

METEOR[4]は,単語属性が正しい場合に高いスコアを出す.実験ではuni-gramを用いる. METEORは0から1までのスコアを出力し,スコアの大きい方が評価が良い評価である.計算式を以下に示す.


$\displaystyle F値$ $\textstyle =$ $\displaystyle \frac{P\times R}{\alpha\times P+(1-\alpha)\times R}$ (3.10)
$\displaystyle Pen$ $\textstyle =$ $\displaystyle \gamma\times (\frac{c}{m})^\beta$ (3.11)
$\displaystyle METEOR$ $\textstyle =$ $\displaystyle F\times (1-Pen)$ (3.12)

METEORはF値,ペナルティ関数$Pen$を用いて計算される. F値は適合率Pと再現率Rの調和平均で求められる. そしてペナルティ関数$Pen$において,mは参照文と出力文の間で一致した単語数を示す. また$c$は,一致した単語を対象として,参照文と一致する単語列を1つのまとまりに 統合した際のまとまりの数を示す. したがって,参照文と出力文が同一文である場合は$c$=1となる. なお$\alpha$$\beta$$\gamma$の値はパラメータである. 具体的な計算例を以下に示す.
[
c]例 日本語文:お先 に 失礼 し ます 。
参照文:Excuse me , I must be going now .
出力文:Excuse me , but I mest be going now .

計算方法
参照文Bと出力文A,AとBの重複部分Cとする.またパラメータ $\alpha=0.8,\beta=2.5,\gamma=0.4$とする.

$\displaystyle 適合率P$ $\textstyle =$ $\displaystyle \frac{C}{A}=\frac{9}{10}$ (3.13)
$\displaystyle 再現率R$ $\textstyle =$ $\displaystyle \frac{C}{B}=\frac{9}{9}$ (3.14)
$\displaystyle F値$ $\textstyle =$ $\displaystyle \frac{P*R}{\alpha*P+(1-\alpha)*R}=\frac{45}{46}$ (3.15)
$\displaystyle ペナルティ関数Pen$ $\textstyle =$ $\displaystyle \gamma*(\frac{c}{m})^\beta=0.4*(\frac{2}{9})^{2.5}=0.00931169…$ (3.16)
$\displaystyle METEORスコア$ $\textstyle =$ $\displaystyle F*(1-Pen)$ (3.17)
  $\textstyle =$ $\displaystyle \frac{45}{46}*(1-0.0093)$ (3.18)
  $\textstyle =$ $\displaystyle 0.9692$ (3.19)


next up previous contents
次へ: RIBES 上へ: 自動評価 戻る: NIST   目次
平成25年2月12日