next up previous contents
次へ: おわりに 上へ: 考察 戻る: 未知語が減少した文と文質が向上した文の比較   目次

先行研究との比較

先行研究では単文,重文複文の学習データとして,121,913文対 を用いた.テストデータには,1,000文対を用いた.先行研究は,単文,重文複 文共に,人手で作成したフレーズ対261,453件中,130,893件をフレーズテーブル に追加した.一方,本研究は,単文,重文複文の学習データとして,100,000文 対を用いた.テストデータには,10,000文対を用いた.本研究は,翻訳対 1,085,344件中,単文で18,237件,重文複文で17,581件をフレーズテーブルに追 加した.その他の実験環境は同一の環境で実験を行った.表6.5に先行研究 の翻訳精度と本研究の翻訳精度を示す.表中の値はBLEU値である.



表 6.5: 先行研究との翻訳精度比較
テストデータ
先行研究 本研究
ベースライン
提案手法
ベースライン
提案手法
単文
0.103
0.106
0.118
0.121
重文複文
0.077
0.080
0.082
0.084


先行研究は単文で0.3%,重文複文で0.3%向上している.一方, 本研究では単文で0.3%,重文複文で0.2%向上している.よって,ベースライン と提案手法の差はほぼ同じであることがわかる.

本研究の目的は,翻訳対の総数が多い``英辞郎''を使用し,カバー 率を向上させることによる,翻訳精度の向上であった.しかし,先行研究 では翻訳対を130,893件をフレーズテーブルに追加しているのに対 し,本研究では単文では18,237件,重文複文では17,581件であり,先行研究 のおよそ1/7しか追加していないため,本研究のintersectionを用いた翻訳確率 の付与方法は限界だと考えている.しかし,実験結果では,``英辞郎'' で作成した翻訳対を追加した時のベースラインと提案手法の差 と,先行研究において,人手で作成した翻訳対を追加した時のベー スラインと提案手法の差がほぼ同じであったことから,``英辞郎''で作成した翻 訳対をフレーズテーブルに追加する,提案手法は有効である.

今後の課題としては,より多くの翻訳対に翻訳確率を付与するための1つの方法 として,パーシャルマッチング[12]による,翻訳確率の付与方法を検 討している.


next up previous contents
次へ: おわりに 上へ: 考察 戻る: 未知語が減少した文と文質が向上した文の比較   目次
平成22年2月13日