next up previous
次へ: テストデータ 上へ: 翻訳実験 戻る: 学習データ


手作業で作成された翻訳対

手作業で作成された翻訳対は,日英重複文文型パターン辞書[3]から抽 出した対訳コーパスから作成された翻訳対261,453個を用いる. この翻訳対 は,プロの翻訳者が手動で作成した対訳対で,単語,句,節の単位で対応づけ られている.また,この翻訳対は日本語文が重複文で英語が単文もしくは重複 文である対訳コーパスから抽出されている.文献[10]に,この翻 訳対の詳しい説明がある.基本的には,日本語文と英語文の対訳文から日本語パターンと英語パターンを 作成する.このとき,作成できる日英翻訳対を利用する. 翻訳対の抽出において,長さの制限はおこなっていない. また,重複する句は抽出していない. 例を表[*]に示す.


表: 翻訳対の作成例
日本語文:クロッカスは春に咲き、サフランは秋に咲く。  
英語文:Crocus blooms in the spring while saffron blooms in the fall.
日本語パターン:$ N1$ は,$ TIME2$$ V3$$ N4$ は, $ TIME5$$ V6$
英語パターン:$ N1$ in $ N2$ while $ N4$ $ V6$ in $ N5$ .
日英翻訳対
$ N1$ :クロッカス $ \vert\vert\vert$ Crocus blooms
$ TIME2$ :春 $ \vert\vert\vert$ the spring
$ V3$ :咲き $ \vert\vert\vert$ blooms
$ N4$ :サフラン $ \vert\vert\vert$ saffron
$ TIME5$ :秋 $ \vert\vert\vert$ the fall
$ V6$ :咲く $ \vert\vert\vert$ blooms

手作業で作成された翻訳対の例を 表[*]に示す. 翻訳対の分布図を図[*]に示す. この図では,縦軸が全体 に占める割合で,横軸が1つの翻訳対における単語数である.日本語における 単語数を■,英語における単語数を□で示している.これからわかるよう に,2単語のフレーズが最も多く,単語数と,その単語数がしめる割合 は,zipfの法則に沿っていることがわかる.なお,本稿では,手作業で作成さ れた単語列の対訳対を翻訳対と呼ぶ.

図: 手作業で作成した翻訳対の単語数の分布図
\fbox{
\includegraphics[width=12cm,clip]{word.eps}
}


=1cm
表: 手作業で作成された翻訳対の例
コート の すそ
the edge of my coat
朝晩 の ラッシュ 時 に
during the morning and evening rush hours
国産 の コート は 英国 製 より だいぶ 落ちる
home-made coats are by far inferior to those made in britain


next up previous
次へ: テストデータ 上へ: 翻訳実験 戻る: 学習データ
Jin'ichi Murakami 平成22年9月2日