next up previous contents
次へ: 未知語の影響 上へ: 考察 戻る: 考察   目次

自動評価と対比較評価の不整合

単文と重文複文において,提案手法1の出力文とルールベース翻訳(ATLAS)のみの 出力文からランダムに抽出した100文を用いて,対比較評価を行なった.評価基 準は6.2章において示したものと同様とする.判断基準の例を表12から 15に示し,評価結果を表16に示す.



表 12: 提案手法○の例(単文)
例1
日本語文 電気 コンロ の コイル が 焼き 切れた 。
正解文 The heater coil is burnt out .
ATLASのみ The coil of an electric stove was able to be burnt off .
提案手法1 The coil of the electric heater has burned out .
例2
日本語文 酒 に おぼれ て いる 。
正解文 He has an alcohol problem .
ATLASのみ It .. sake .. is drowned .
提案手法1 It is drowned in drink .



表 13: 提案手法○の例(重文複文)
例1
日本語文 字 が 下手 な ので 、 恥ずかしい 。
正解文 I am embarrassed because my handwriting is so poor .
ATLASのみ Because the character is unskilled , it is shameful .
提案手法1 The writing is poor , so it is embarrassing .
例2
日本語文 なん で も 二 時 過ぎ で あっ た よう に ぼんやり し た 覚え が ある 。
正解文 I have a vague impression that it was past two .
ATLASのみ It recalls it at anything two o 'clock .. dopy ...
提案手法1 It recalls two o'clock in the dim .



表 14: 提案手法×の例(単文)
例1
日本語文 クリントン 大統領 は 、 明らか に いら立っ て い た 。
正解文 Clinton was apparently irritated by the situation .
ATLASのみ President Clinton had obviously gotten irritated .
提案手法1 Clinton has gotten obvious .
例2
日本語文 彼女 は 野良猫 を 外 へ 放り出し た 。
正解文 She threw out the wild cat .
ATLASのみ She threw out the homeless cat to the outside .
提案手法1 She threw the homeless in cat .



表 15: 提案手法×の例(重文複文)
例1
日本語文 一つ は 林檎 で あり 、 もう 一つ は バナナ で あっ た 。
正解文 One was an apple and the other was a banana .
ATLASのみ One was an apple , and another was a banana .
提案手法1 There was an apple and another was a banana .
例2
日本語文 おどけ て 見せる の が 好き だ 。
正解文 He likes to play the joker .
ATLASのみ I like to joke and to show it .
提案手法1 I like to joke .
例3
日本語文 この 道 は 分かれ て グローブ = シティ に 通じ て いる 。
正解文 This road branches off to Grove City .
ATLASのみ This road divides and runs to glove = city .
提案手法1 This road is = and to gloves .


表 16: 対比較評価
  提案手法○ 提案手法× 提案手法△ 提案手法=
単文(ATLASのみ) 17 /100 9 /100 59 /100 15 /100
重文複文(ATLASのみ) 8 /100 42 /100 48 /100 2 /100
重文複文(翻訳の王様のみ) 4 /100 44 /100 51 /100 1 /100

結果より,単文における対比較評価では,``提案手法の方が良い''と選択された数が,``提案手 法の方が悪い''と選択された数よりも,わずかに多い.しかしながら,``差がない'' とされた数が最も多く,提案手法の効果はあまり確認できなかった.
重文複文におけるルールベース翻訳のみとの対比較評価では,``提案手法の方が 悪い''と選択された数が,``提案手法の方が良い''と選択された数よりも多い. この原因として,重文複文では文法構造が複雑なため,ルールベース翻訳での前 処理において,英語の文法構造に類似させることができなかったと考えている. このため,統計翻訳において,低精度に翻訳され,提案手法の翻訳精度が低下し たと考えている.
しかしながら,提案手法におけるBLEUスコアでは,ATLASのみと比較して4.22% ,翻訳の王様のみと比較して5.04%の向上が確認されている. この結果は人手による対比較評価の結果と整合してしない. この原因として,学習データとテストデータが同じ分野から抽出した文のため,統計翻訳 によって,分野に適応し,BLEUスコアが向上したと考えている. なお,BLEUスコアでは4-gramを用いて評価を行なっているため,分野に適応した 文では,分野に適応していない文と比較して,BLEUスコアが高くなる傾向がある.
したがって,自動評価と対比較評価の不整合は,統計翻訳によって分野に適応し た文が,BLEUスコアにおいて有利に評価されるといった問題から生じたと考 えている.


next up previous contents
次へ: 未知語の影響 上へ: 考察 戻る: 考察   目次
平成22年2月11日