next up previous contents
Next: 従来研究 Up: honron Previous: 表目次   目次

はじめに

機械翻訳には様々な手法が存在する. 現在は統計機械翻訳やニューラル機械翻訳が主流である. しかし, 統計機械翻訳は高精度の翻訳結果を出力するために多量のパラレルコーパスを必要とする. ヨーロッパ圏の言語は多量のパラレルコーパスがEuroparl Corpus[2]によって存在するが, 日英パラレルコーパスはEuroparl Corpusと比較して数が不足している. また, ニューラル機械翻訳は出力の導出過程の解析が困難である.

機械翻訳において, 相対的意味論に基づく変換主導型統計機械翻訳 TDSMTが提案されている. 従来手法は変換テーブルを用いて, 学習文対を変換し, 出力文を作成する. 変換テーブルは ``「AB」ならば「CD」'' で表現する. 変換テーブルは学習文対(パラレルコーパス)から自動作成する. 作成にはIBM Model 1[3], 単語レベル文パターンを利用する. 従来手法は学習文対1対から複数の変換テーブルを作成する. また, 出力の導出過程の解析もニューラル機械翻訳と比べ, 容易である.

従来手法は学習文対の単語を変換テーブルを利用し, 置き換えることによって出力文を得る. つまり, 変換テーブルはAC, そして BDが置き換え可能な関係が想定される. しかし, 従来手法は自動で変換テーブルを作成するため, 誤った変換テーブルを作成する場合がある. 誤った変換テーブルとは, 文中においてAC, そして BDの置き換えが不可能である変換テーブルを意味する. そこで, 本研究は誤った変換テーブルの削除を目的とする. 本研究では提案手法として, 前後環境を利用して誤った変換テーブルを削除する方法を提案する.



2020-03-11