手作業で作成された翻訳対は,日英重複文文型パターン辞書[3]から抽
出した対訳コーパスから作成された翻訳対261,453個を用いる. この翻訳対
は,プロの翻訳者が手動で作成した対訳対で,単語,句,節の単位で対応づけ
られている.また,この翻訳対は日本語文が重複文で英語が単文もしくは重複
文である対訳コーパスから抽出されている.文献[10]に,この翻
訳対の詳しい説明がある.基本的には,日本語文と英語文の対訳文から日本語パターンと英語パターンを
作成する.このとき,作成できる日英翻訳対を利用する.
翻訳対の抽出において,長さの制限はおこなっていない.
また,重複する句は抽出していない.
例を表に示す.
日本語文:クロッカスは春に咲き、サフランは秋に咲く。 |
英語文:Crocus blooms in the spring while saffron blooms in the fall. |
日本語パターン:![]() ![]() ![]() ![]() ![]() ![]() |
英語パターン:![]() ![]() ![]() ![]() ![]() |
日英翻訳対 |
![]() ![]() |
![]() ![]() |
![]() ![]() |
![]() ![]() |
![]() ![]() |
![]() ![]() |
手作業で作成された翻訳対の例を
表に示す.
翻訳対の分布図を図
に示す.
この図では,縦軸が全体
に占める割合で,横軸が1つの翻訳対における単語数である.日本語における
単語数を■,英語における単語数を□で示している.これからわかるよう
に,2単語のフレーズが最も多く,単語数と,その単語数がしめる割合
は,zipfの法則に沿っていることがわかる.なお,本稿では,手作業で作成さ
れた単語列の対訳対を翻訳対と呼ぶ.