入力文 | The accident claimed twenty lives . |
英語文パターン | The 1 claimed 2 lives . |
日本語文パターン | 1 で 2 人 が 死亡 し た 。 |
提案手法 | 事故 で 2 人 が 死亡 し た 。 |
正解文 | その 事故 は 2 0 人 の 命 を 奪っ た 。 |
表9.1において,英単語 "twenty" が "2 0" ではなく "2" と翻訳されている.英単語が誤訳された原因として,英日対訳単語辞書の "twenty" に "2 0" という意味が与えられていないことがわかった.これは現時点で用いている単語辞書が単語対応であることに起因する.よって数字や固有名詞は単語対応ではなく,句対応の単語辞書を用いるという対策が必要であると考えている.
入力文 | We cleared the forest . |
英語文パターン | 1 2 3 4 . |
日本語文パターン | 1 は 4 に 3 2 た 。 |
提案手法 | 私 は 森 に は 晴れ た 。 |
正解文 | 私 たち は 森 を 切り開い た 。 |
表9.2において,変数2に当たる "cleared" が "晴れ" に翻訳されている.これは表9.1と同様に "cleared" に対応する日本語単語が "晴れ" のみであったことが原因である.
しかし表9.2で着目すべき点は,日本語文パターンの動詞が変数化されているということである.表9.1では名詞のみが変数化されており,単語辞書に未知語が含まれているが,日本語文として自然な文章である.もし,9.2の "cleared" が変数化されていなければ.日本語文パターンには, "切り 開い た 。"という動詞が残される.文法情報が多く含まれる文パターンが生成されるため,翻訳精度が向上すると考えている.また,英語文パターンに "clear" が残されることで適合する文パターン数が減少し,不適切な翻訳候補文数の減少が見込まれると考えられる.動詞を含まない文パターンについては9.7.1節で記述する.
入力文 | He pulled her hand . |
英語文パターン | 1 2 her 3 . |
日本語文パターン | 1 は 3 を 2 た 。 |
提案手法 | 彼 は 手 を 引っ込め た 。 |
正解文 | 彼 が 彼女 の 手 を 引っ張っ た 。 |
表9.3において,変数2に当たる "pulled" が "引っ込め" に翻訳されている.英日対訳単語辞書には "pulled" の意味に "引っ張っ" という意味も含まれていたが,tri-gramによる絞込みにより除外されたと考えられる.これはtri-gramの学習データ量を増加させることで改善できると考えている.また,表9.2と同様に動詞が変数化されているため,動詞の文法情報を残しておくことで,翻訳精度の向上が見込める.
入力文 | Give me a hand . |
英語文パターン | Give 1 a 2 . |
日本語文パターン | 1 に 2 を あげ なさい 。 |
提案手法 | 私 に 手 を あげ なさい 。 |
正解文 | 手伝っ て ください 。 |
表9.4において,提案手法の翻訳文は日本語文として不自然である.これは適合した文パターンそのものに問題がある.適合した文パターンの原文を調べたところ,英語文は "Give her a doll .",対応する日本語文は "彼女 に 人形 を あげ なさい 。" であった.翻訳精度を向上させるために,文パターン辞書のデータ数を増加する必要がある.
入力文 | My brother is in Tokyo . |
英語文パターン | 1 2 is in 3 . |
日本語文パターン | 1 の 2 は 3 に ある 。 |
提案手法 | 私 の 兄 は 東京 に ある 。 |
正解文 | 兄 が 上京 し て いる 。 |
表9.5において,提案手法は "兄 は 東京 に ある" と翻訳されている.これは日本語文として表現が不適切である.これは先ほどと同様に,適合した文パターンに問題がある.よって,文パターン辞書のデータ数を増加しなければならないと考えている.