次へ: 謝辞 上へ: paper 戻る: 翻訳評価について目次

おわりに

本論文では，単文・重文複文における階層型統計翻訳と句に基づく統計翻訳の翻訳結果を調査した．その結果，自動評価・人手評価共に句に基づく統計翻訳よりも階層型統計翻訳のほうが評価が高いスコアとなった．具体的な自動評価のスコアとして，単文においてそれぞれBLEUは0.0123，NISTは0.2264，METEORは0.0243，IMPACTは0.0172，RIBESは0.0204，TERは0.0163，WERは0.018，階層型統計翻訳のほうがスコアが高くなった．また重文複文においてBLEUは0.0188，NISTは0.2711，METEORは0.0266，IMPACTは0.0256，RIBESは0.0377，TER0.0349は，WERは0.0425，階層型統計翻訳のほうがスコアが高くなった．人手評価は，単文において句に基づく統計翻訳が12文，階層型統計翻訳が22文重文複文において句に基づく統計翻訳が優れていると評価したものが12文，階層型統計翻訳が優れていると評価したものが22文重文複文において句に基づく統計翻訳が優れていると評価したものが7文，階層型統計翻訳が優れていると評価したものが26文だった．単文・重文複文を使用した場合，自動評価と人手評価より階層型統計翻訳の評価が高くなることがわかった．

さらに，スコアが高くなった原因の調査として，文の構造を考慮するか，又はしないかのデコーディングの違いによって，評価に差が出たと考えた．よって，主語と述語の翻訳が出来ている文数を調査した．調査の結果，句に基づく統計翻訳が12文，階層型統計翻訳が25文翻訳ができていた．これより，HSMTは翻訳する際に文法構造が考慮されていて，主語と述語がよく翻訳されているためであると考える．

今後は，主語と述語以外の文法構造について調査していきたい．

root 平成24年3月22日