手作業で作成された翻訳対は,日英重複文文型パターン辞書[3]から抽 出した対訳コーパスから作成された翻訳対261,453個を用いる. この翻訳対 は,プロの翻訳者が手動で作成した対訳対で,単語,句,節の単位で対応づけ られている.また,この翻訳対は日本語文が重複文で英語が単文もしくは重複 文である対訳コーパスから抽出されている.文献[10]に,この翻 訳対の詳しい説明がある.基本的には,日本語文と英語文の対訳文から日本語パターンと英語パターンを 作成する.このとき,作成できる日英翻訳対を利用する. 翻訳対の抽出において,長さの制限はおこなっていない. また,重複する句は抽出していない. 例を表に示す.
日本語文:クロッカスは春に咲き、サフランは秋に咲く。 |
英語文:Crocus blooms in the spring while saffron blooms in the fall. |
日本語パターン: は, に 、 は, に 。 |
英語パターン: in while in . |
日英翻訳対 |
:クロッカス Crocus blooms |
:春 the spring |
:咲き blooms |
:サフラン saffron |
:秋 the fall |
:咲く blooms |
手作業で作成された翻訳対の例を 表に示す. 翻訳対の分布図を図に示す. この図では,縦軸が全体 に占める割合で,横軸が1つの翻訳対における単語数である.日本語における 単語数を■,英語における単語数を□で示している.これからわかるよう に,2単語のフレーズが最も多く,単語数と,その単語数がしめる割合 は,zipfの法則に沿っていることがわかる.なお,本稿では,手作業で作成さ れた単語列の対訳対を翻訳対と呼ぶ.