next up previous contents
次へ: 実験 上へ: 実験環境 戻る: デコーダのパラメータ   目次

評価方法

出力文の評価には自動評価法であるBLEU[15]とMETEOR[16]を使用する. BLEUは予め用意された正解文と比較して,語順が正しい場合に高いスコアを出す. BLEUは以下の式で計算される.


$\displaystyle BLEU_{score}$ $\displaystyle =$ $\displaystyle BP \times \sqrt[N]{\prod^{N}_{i=1}P_{n}}$ (12)
$\displaystyle P_{n}$ $\displaystyle =$ $\displaystyle \frac{ \sum_{i} 出力文iと正解文iで一致したN-gramの数}
{\sum_{i}出力文iのN-gramの数}$ (13)

ここで,$ P_{n}$ は出力文と正解文のN-gramの一致率を表している.BLEU はこの一致率を1-gramから4-gramまで計算し,その幾何平均をとる.また,出力 文が正解文より短い場合,`` $ \sum_{i}出力文iのN-gramの数$ ''が小さくなり, 不当にスコアが高くなる可能性がある.そこで,正解文より短い文に対するペナ ルティとして,$ BP$ を用いる.$ BP$ は出力文が正解文より長い場合は1をとなり,出 力文が正解文より短い場合は1未満の値をとなる

METEORは予め用意された正解文と比較して,単語属性が正しい場合に高いスコア を出す.METEORは以下の式で計算される.


$\displaystyle METEOR_{score}$ $\displaystyle =$ $\displaystyle F_{mean} \times (1-Pen)$ (14)
$\displaystyle F_{mean}$ $\displaystyle =$ $\displaystyle \frac{P \times R}{\alpha \times P + (1-\alpha) \times R}$ (15)
$\displaystyle Pen$ $\displaystyle =$ $\displaystyle \gamma \times (\frac{c}{m})^\beta$ (16)

METEORはまず再現率$ R$ と適合率$ P$ に基づくF値を求め,次に,単語の非連続性 に対するペナルティとして関数$ Pen$ を与える.ペナルティ関数$ Pen$ において, $ m$ は出力文と正解文の単語の一致率を表す.そして,$ c$ は一致した単語を対象 に,正解文と語順が同じものを1つのまとまりとして統合した場合の,まとまり の数を表す.そのため,出力文と正解文が同じ文であるとき$ c$ =1となる.また, 一致率の計算において,WordNetによる類義語を用いて,似た意味を持つ単語は 同一であると判断される.$ \alpha$$ \beta$$ \gamma$ の値はパラメータであ る.本研究では,$ \alpha$ =0.9,$ \beta$ =3.0,$ \gamma$ =0.5の値を用いる.

両評価法とも0から1の間で評価され,出力文と正解文が同じ文であるとき1とな り,最も良い評価である.本研究では,入力文1文に対して正解文1文を用いて 評価を行う.

また,人手による評価として,対比較評価も行う.



平成22年2月17日