次へ: 謝辞
上へ: honron
戻る: まとめ
目次
本論文では,統計翻訳に関する3つの研究を扱った.以下にそれぞれの研究についてまとめる.
- パターン翻訳を用いた学習データ増加手法の検討
本研究では,単言語データに対してパターン翻訳を行い,既存の対訳学習データに付与することで,対訳学習データを増加させる手法を提案した.実験の結果,単文データセットにおいてデコーダのチューニングを行わない実験で,自動評価および人手による対比較評価から有効性が確認できた.しかし,その他のデータセットにおいては提案手法の有効性は認められなかった.原因として,パターン翻訳の学習データに既存の対訳学習データを用いていることが考えられる.つまり,パターン翻訳を用いて日本語学習データを翻訳しても,パターン翻訳の学習に用いるデータがベースラインと同様であるため有用な情報が獲得できないのだと思われる.しかし,少量の単文データを学習データとして用いる実験など,ベースラインの翻訳精度が著しく低い場合に提案手法が有効に働く可能性がある.今後,使用するデータによる翻訳結果の差異の,より詳細な調査が必要である.
- 句に基づく統計翻訳における未知語処理の1手法
本研究では,統計翻訳における未知語を減少させる手法を提案した.提案手法の特徴として,フレーズテーブルの作成におけるヒューリスティックスの併用を行うことで,対訳辞書データなどの外部リソースを必要としない点が挙げられる.ヒューリスティックスの併用として,``grow-diag-final-and"のフレーズテーブルと未知語として出力される単語に対応する``intersection"のフレーズテーブルを併用する.実験の結果,出力文全体の自動評価値に影響はなかったが,未知語の減少に大きな効果が認められた.ベースラインの出力において未知語を含む文100文中,単文を用いた実験では61文,重文複文を用いた実験では68文の未知語が改善した.さらに,未知語が改善した文のうち,単文実験において61文中21文,重文複文実験において68文中12文の翻訳品質が向上した.したがって,未知語問題に対して,提案手法の有効性が認められる.今後の展開として,特許文を用いた実験など,未知語が大量に生成される場合における提案手法の有効性を確認していきたい.
- 統語的タグを用いた統計的階層句機械翻訳
本研究では,日英統計的階層句機械翻訳において,統語的情報として日本語文の名詞句・動詞句にタグを付与する手法を提案した.統語的情報を含んだ学習文を用いて翻訳システムの学習を行い,
統語的情報を含む文法規則を生成することで,システムの翻訳精度向上を目指した.
しかし,単文・重文複文・特許文全ての実験において,提案手法の効果は認められなかった.
原因として,日本語文へのタグ付与のみでは,統語的情報として不十分であることなどが挙げられる.
今後の展開として,生成されたルールのフィルタリングを行う手法や,目的言語である英語側においても,統語的情報を付与する手法が考えられる.
Subsections
平成25年2月12日