next up previous contents
次へ: 翻訳プロトタイプシステム「Meijin」による名詞句翻訳 上へ: 名詞句パタ−ン辞書の作成 戻る: 名詞句パターン化の結果   目次

名詞句パターン辞書の作成結果

日英名詞句パタ−ン対において,同じ記述のパタ−ン対を1つにまとめて, パターン辞書とする.日本語パターンは,字面パタ−ンを含め,全部で23,834種 類あった.日本語名詞句の圧縮率は,52%であった.なお,意味属性,形態素調 整を付与したままである場合は,全部で35,289種類で,圧縮率22.7%であった.

パタ−ンを作るために用いたコ−パスの名詞句の分布を調べたところ,パタ−ン 化の元の名詞句が一番 多く使われていたパタ−ンが$REN1N2$であり,その名詞句の数は3,719個であった. 以下,上位10位までの日本語パタ−ンと,それに対する英語パタ−ンの頻度の多 かった上位2位とその他を表8に示す.

コ−パスの名詞句が1,000個以上であったパタ−ンが4件,999〜100個であったパタ−ンが14件,99〜20個であったパタ−ンが 56件,29〜1個であったパタ−ンが23,735件であった.この日本語パタ−ンに対する英語パタ−ンの頻度を図1に示す.

表8を見ると,英語パターンが第1位の割合が高い日本語パターンにおいては,そのま ま第一位の英語パターンを適応すれば,良い翻訳ができそうにみえる.しかし, ``N1のN2''や``AJ1N2''などは,対応する英語パターンにおいてばらつきがあり, 英語パターンの選択をする必要がある.


表 8: 日本語パターンに対する英語パターンの種類(日本語の上位10位まで)
日本語パターン 英語パターン
句の数 1位 2位 3位 その他 [種類数]
$REN1N2$ $PRN1$ $N2$ $AJ1$ $N2$ the $AJ1$ $N2$ その他[101]
3,719個 (87.0%) (5.6%) (1.7%) (5.7%)
その$N1$ the $N1$ his $N1$ this $N1$ その他[41]
3,686個 (97.2%) (0.4%) (0.2%) (2.2%)
$PRN1$$N2$ $PRN1$ $N2$ $PRN1$ true $N2$ $N2$ of $PRN1$ その他[38]
1,936個 (97.2%) (0.2%) (0.1%) (2.5%)
$N1$$N2$ the $N2$ of the $N1$ $N1$ $N2$ the $N1$ $N2$ その他 [186]
1,224個 (12.5%) (11.8%) (10.1%) (65.6%)
この$N1$ the $N1$ $N1$ those $N1$ その他 [17]
719個 (95.3%) (0.7%) (0.4%) (3.6%)
$PRN1$$NS2$ $PRN1$ $N2$ $PRN1$ own $N2$ $N2$ of $PRN1$ その他 [6]
661個 (99.2%) (0.2%) (0.2%) (0.4%)
$AJ1N2$ $AJ1N2$ a $AJ1$ $N2$ the $AJ1$ $N2$ その他 [35]
524個 (46.1%) (34.9%) (8.0%) (11.0%)
その$NS1$ the $N1$ their $N1$ my $N1$ その他 [8]
496個 (97.3%) (0.4%) (0.4%) (1.9%)
$REN1NS2$ $PRN1$ $N2$ $AJ1$ $N2$ the $AJ1$ $N2$ その他[21]
461個 (76.4%) (10.6%) (2.0%) (11.0%)
$AJV1N2$ $AJ1N2$ a $AJ1$ $N2$ the $AJ1$ $N2$ その他[34]
381個 (45.1%) (25.7%) (12.1%) (10.8%)




表 9: 表7に対する上位4位までの例
日本語パターン 元の日本語句 英語パターン
元の英語句
$REN1N2$ あの建物 $PRN1$ $N2$
The building
近くの病院 $AJ1$ $N2$
nearby hospital
その$N1$ その会社 the $N1$
the company
その秘密 the $AJ1$
the secret
その手紙 his $N1$
his letter
$PRN$1の$N$2 彼の性格 $PRN1$ $N2$
his character
私の過去 $PRN1$ $AJ2$
my past
$N1$$N2$ 国の将来 the $N2$ of the $N1$
the future of the country
列車の時間 $N1$ $N2$
train time


図 1: 日本語パタ−ンに対する英語パタ−ンの頻度
\includegraphics{graph.eps}
1〜73まで書いてある軸は,「日本語パタ−ンの順位」を表しています. 1が日本語パタ−ン第1位の$REN1N2$のことです. S1〜S8まで書いてある軸は,「日本語パタ−ンに対応する英語パタ−ンの順位」でS1 が英語パタ−ン第1位のことです. 0〜100%まで書いてある軸は,「英語パタ−ンの頻度」を表しています.


next up previous contents
次へ: 翻訳プロトタイプシステム「Meijin」による名詞句翻訳 上へ: 名詞句パタ−ン辞書の作成 戻る: 名詞句パターン化の結果   目次
平成17年3月23日