評価方法

$\displaystyle BLEU_{score}$	$\displaystyle =$	$\displaystyle BP \times \sqrt[N]{\prod^{N}_{i=1}P_{n}}$	(12)
$\displaystyle P_{n}$	$\displaystyle =$	$\displaystyle \frac{ \sum_{i} 出力文iと正解文iで一致したN-gramの数} {\sum_{i}出力文iのN-gramの数}$	(13)

ここで， $P_{n}$ は出力文と正解文のN-gramの一致率を表している．BLEU はこの一致率を1-gramから4-gramまで計算し，その幾何平均をとる．また，出力文が正解文より短い場合，`` $\sum_{i}出力文iのN-gramの数$ ''が小さくなり，不当にスコアが高くなる可能性がある．そこで，正解文より短い文に対するペナルティとして，

を用いる．

は出力文が正解文より長い場合は1をとなり，出力文が正解文より短い場合は1未満の値をとなる

METEORは予め用意された正解文と比較して，単語属性が正しい場合に高いスコアを出す．METEORは以下の式で計算される．

$\displaystyle METEOR_{score}$	$\displaystyle =$	$\displaystyle F_{mean} \times (1-Pen)$	(14)
$\displaystyle F_{mean}$	$\displaystyle =$	$\displaystyle \frac{P \times R}{\alpha \times P + (1-\alpha) \times R}$	(15)
$\displaystyle Pen$	$\displaystyle =$	$\displaystyle \gamma \times (\frac{c}{m})^\beta$	(16)

METEORはまず再現率

と適合率

に基づくF値を求め，次に，単語の非連続性に対するペナルティとして関数

を与える．ペナルティ関数

において，

は出力文と正解文の単語の一致率を表す．そして，

は一致した単語を対象に，正解文と語順が同じものを1つのまとまりとして統合した場合の，まとまりの数を表す．そのため，出力文と正解文が同じ文であるとき

=1となる．また，一致率の計算において，WordNetによる類義語を用いて，似た意味を持つ単語は同一であると判断される． $\alpha$ ， $\beta$ ， $\gamma$ の値はパラメータである．本研究では， $\alpha$ =0.9， $\beta$ =3.0， $\gamma$ =0.5の値を用いる．

両評価法とも0から1の間で評価され，出力文と正解文が同じ文であるとき1となり，最も良い評価である．本研究では，入力文1文に対して正解文１文を用いて評価を行う．