日英名詞句パタ−ン対において,同じ記述のパタ−ン対を1つにまとめて, パターン辞書とする.日本語パターンは,字面パタ−ンを含め,全部で23,834種 類あった.日本語名詞句の圧縮率は,52%であった.なお,意味属性,形態素調 整を付与したままである場合は,全部で35,289種類で,圧縮率22.7%であった.
パタ−ンを作るために用いたコ−パスの名詞句の分布を調べたところ,パタ−ン 化の元の名詞句が一番 多く使われていたパタ−ンがであり,その名詞句の数は3,719個であった. 以下,上位10位までの日本語パタ−ンと,それに対する英語パタ−ンの頻度の多 かった上位2位とその他を表8に示す.
コ−パスの名詞句が1,000個以上であったパタ−ンが4件,999〜100個であったパタ−ンが14件,99〜20個であったパタ−ンが 56件,29〜1個であったパタ−ンが23,735件であった.この日本語パタ−ンに対する英語パタ−ンの頻度を図1に示す.
表8を見ると,英語パターンが第1位の割合が高い日本語パターンにおいては,そのま ま第一位の英語パターンを適応すれば,良い翻訳ができそうにみえる.しかし, ``N1のN2''や``AJ1N2''などは,対応する英語パターンにおいてばらつきがあり, 英語パターンの選択をする必要がある.
日本語パターン | 英語パターン | |||
句の数 | 1位 | 2位 | 3位 | その他 [種類数] |
the | その他[101] | |||
3,719個 | (87.0%) | (5.6%) | (1.7%) | (5.7%) |
その | the | his | this | その他[41] |
3,686個 | (97.2%) | (0.4%) | (0.2%) | (2.2%) |
の | true | of | その他[38] | |
1,936個 | (97.2%) | (0.2%) | (0.1%) | (2.5%) |
の | the of the | the | その他 [186] | |
1,224個 | (12.5%) | (11.8%) | (10.1%) | (65.6%) |
この | the | those | その他 [17] | |
719個 | (95.3%) | (0.7%) | (0.4%) | (3.6%) |
の | own | of | その他 [6] | |
661個 | (99.2%) | (0.2%) | (0.2%) | (0.4%) |
a | the | その他 [35] | ||
524個 | (46.1%) | (34.9%) | (8.0%) | (11.0%) |
その | the | their | my | その他 [8] |
496個 | (97.3%) | (0.4%) | (0.4%) | (1.9%) |
the | その他[21] | |||
461個 | (76.4%) | (10.6%) | (2.0%) | (11.0%) |
a | the | その他[34] | ||
381個 | (45.1%) | (25.7%) | (12.1%) | (10.8%) |
日本語パターン | 元の日本語句 | 英語パターン |
元の英語句 | ||
あの建物 | ||
The building | ||
近くの病院 | ||
nearby hospital | ||
その | その会社 | the |
the company | ||
その秘密 | the | |
the secret | ||
その手紙 | his | |
his letter | ||
1の2 | 彼の性格 | |
his character | ||
私の過去 | ||
my past | ||
の | 国の将来 | the of the |
the future of the country | ||
列車の時間 | ||
train time | ||
1〜73まで書いてある軸は,「日本語パタ−ンの順位」を表しています. 1が日本語パタ−ン第1位ののことです. S1〜S8まで書いてある軸は,「日本語パタ−ンに対応する英語パタ−ンの順位」でS1 が英語パタ−ン第1位のことです. 0〜100%まで書いてある軸は,「英語パタ−ンの頻度」を表しています.