翻訳精度を自動的に評価する手法として,用意された正解文と,機械翻訳器が出力した出力文とを比較する手法が一般的である.自動評価法には多くの手法が提案されているが,本論文では,BLEU(BiLingual Evaluation Understudy)[10],METEOR(Metric for Evaluation of Translation with Explicit ORdering)[11],RIBES(Rank based Intuitive Bilingual Evaluation Measure)[12]を用いる.
BLEU[10]は,機械翻訳の分野において,最も一般的な自動評価基準である.BLEUは,n-gramマッチ率に基づく手法を用いている.以下に計算式を示す.
出力される値の領域は0〜1であり,高いほど翻訳文が正解文に近いことを示す.式2.13のNには,一般的に57#57が用いられる. 58#58は翻訳文が正解文と比較して短い場合に用いるペナルティ係数である.このペナルティは,翻訳文が正解文よりも短い場合に適合率が高くなる問題を回避するために用いられる. 58#58は翻訳文の単語数を59#59,正解文の単語数を60#60とし,以下の式で計算される.
61#61 | (14) |
翻訳文の文字数が正解文よりも長い場合には, 62#62となり,影響を及ぼさない.翻訳文の文字数が正解文よりも短い場合には,その短さに応じて, 58#58が小さくなり,結果としてBLEU値が小さくなる.なお,単語数59#59と60#60を算出するときの対象文は1文ではないため,各文の長さの自由度は残されている.また,式2.13の指数関数63#63は以下の式で計算される.
64#64 | (15) |
63#63は正解文と一致するN-gram数をカウントするとき,正解文の要素を重複して数えることを回避するための処理である.また,正解文に対して,翻訳文の方が長い場合には,63#63の値は小さくなるため,BLEU値も小さくなる.
METEOR[11]は,再現率65#65と適合率66#66に基づく67#67値に対して単語の非連続性に対するペナルティ関数68#68を利用した評価基準である.以下に計算式を示す.
69#69 | (16) |
71#71 | (18) |
式2.17のペナルティ関数68#68にある72#72は機械翻訳の出力文と正解文との間で一致した単語数であり,73#73は一致した各単語を対象として語順が同じものを1つのまとまりとして統合した場合のまとまりの数である.したがって,機械翻訳の出力文と正解文が完全一致の場合には74#74となり,語順が全て逆の場合には75#75となる.76#76,77#77,78#78の値はパラメータである.METEORは,0から1の値をスコアとして出力し,スコアが高いほど評価が良い.
RIBES[12]とは,順位相関係数を用いて共通単語の出現順序を評価する自動評価法である. 順位相関係数を用いることで,文全体の語順に着目することが可能である. 自動評価と人手評価の相関について述べた松本らの研究[13]において,日英間翻訳の場合に比較的人手評価と相関が高い自動評価法であると報告されている.以下にRIBESの計算式を示す.
式2.19におけるNSRはスピアマンの順位相関係数である.また,式2.20にけるNKTはケンドールの順位相関係数である.そして,66#66はペナルティを表しており,評価システムの翻訳が参照文に含まれる単語を含む割合である.76#76はペナルティに対する重みであり,081#8176#7681#811の値である.RIBESは,0から1の値をスコアとして出力し,スコアが高いほど評価が良い.