![]() |
![]() |
![]() |
(12) |
![]() |
![]() |
![]() |
(13) |
ここで,
は出力文と正解文のN-gramの一致率を表している.BLEU
はこの一致率を1-gramから4-gramまで計算し,その幾何平均をとる.また,出力
文が正解文より短い場合,``
''が小さくなり,
不当にスコアが高くなる可能性がある.そこで,正解文より短い文に対するペナ
ルティとして,
を用いる.
は出力文が正解文より長い場合は1をとなり,出
力文が正解文より短い場合は1未満の値をとなる
METEORは予め用意された正解文と比較して,単語属性が正しい場合に高いスコア を出す.METEORは以下の式で計算される.
![]() |
![]() |
![]() |
(14) |
![]() |
![]() |
![]() |
(15) |
![]() |
![]() |
![]() |
(16) |
METEORはまず再現率
と適合率
に基づくF値を求め,次に,単語の非連続性
に対するペナルティとして関数
を与える.ペナルティ関数
において,
は出力文と正解文の単語の一致率を表す.そして,
は一致した単語を対象
に,正解文と語順が同じものを1つのまとまりとして統合した場合の,まとまり
の数を表す.そのため,出力文と正解文が同じ文であるとき
=1となる.また,
一致率の計算において,WordNetによる類義語を用いて,似た意味を持つ単語は
同一であると判断される.
,
,
の値はパラメータであ
る.本研究では,
=0.9,
=3.0,
=0.5の値を用いる.
両評価法とも0から1の間で評価され,出力文と正解文が同じ文であるとき1とな り,最も良い評価である.本研究では,入力文1文に対して正解文1文を用いて 評価を行う.
また,人手による評価として,対比較評価も行う.