next up previous contents
次へ: 未知語の問題 上へ: 考察 戻る: 対訳データの問題点   目次

単語選択の問題点

学習データに重文複文コーパスを用いた場合では,5.4.1節に加えて,単語選択 の間違いが多い.例として,以下のような訳出があった.

  単語の選択間違いの例1
入力文 大切 な 文 が 抜け て いる 。
正解文 The important passage is left out .
出力文(単文) The important sentence is missing .
出力文(重文複文) The style is important to go out .
   

  単語の選択間違いの例2
入力文 彼ら は 実力 が 接近 し て いる 。
正解文 They are almost equal in ability .
出力文(単文) The their ability is approaching .
出力文(重文複文) They are having a real ability 接近 .
   

  単語の選択間違いの例3
入力文 腕 を 弱々しく 動かし た 。
正解文 He moved his arm weakly .
出力文(単文) 弱々しく moved the arm .
出力文(重文複文) He moved his 弱々しく .
   

重文複文は,単文に比べて1文中の単語数が多い.そのため,多くのフレーズ対を 生成することができる.しかし,不適切なフレーズ対も多く生成され,出力文2のよ うに誤訳を含む文が出力されると考えている. このことから,重文複文は学習データとしてそのまま使うには有効ではなく,フレー ズテーブルのクリーニング[11]を行ない,不適切なフレーズ対を削除する必要がある と考えている.


平成20年3月25日