next up previous contents
次へ: 人手評価 上へ: 自動評価 戻る: METEOR   目次

NIST

NISTは語順(5-gram)と文長(単語数)が正しい場合に高いスコアを出力し,0から∞までの値で評価を行う.NISTは,BLEUをベースとし,BLEUに改良を加えられている.以下にNISTの計算式を示す.


$\displaystyle NIST$ $\displaystyle =$ \begin{displaymath}\sum_{n=1}^{N}
\left\{
\begin{array}{c}
\frac{\sum_{all w_1 ...
...}}{\overline{L}_{ref}},1
\end{array}\right]
\end{array}\right\}\end{displaymath} (32)

ここで, $ \overline{L}_{ref}$ は正解文内での平均単語数を表す.$ L_{sys}$ および$ N$ は,評価対象に含まれる単語数および最大$ n$ -gram長を表す.$ \beta$ は以下の式で計算される.

$\displaystyle \beta$ $\displaystyle =$ \begin{displaymath}\frac{log(0.5)}{
\left\{
\begin{array}{c}
log(1.5)
\end{array}\right\}
}\end{displaymath} (33)

また, $ info(w_1 \ldots w_n)$ は,評価に用いられるすべての正解文を用い,以下の式で計算される.

$\displaystyle info(w_1 \ldots w_n)$ $\displaystyle =$ \begin{displaymath}log_2
\left(
\begin{array}{c}
\frac{the\ number\ of\ occurenc...
...\ number\ of\ occurence\ of\ w_1 \ldots w_n}
\end{array}\right)\end{displaymath} (34)



平成23年4月12日