next up previous
次へ: 汎化による文型パターンの同一化 上へ: 重文と複文の文型パターン化 戻る: 作成された文型パターンの例と数

変数・関数の使用頻度

(1)
変数の使用頻度

 表8に文型パターン全体で使用された変数の種類と頻度を示す.


表 8: 変数の使用回数
変数 使用回数(割合)
種別 単語レベル 句レベル 節レベル
$N$ 303,319 (64.2%) 138,033 (43.4%) 10,135 (30.8%)
$TIME$ 8,527 (1.8%) 5,187 (1.6%) 529 (1.6%)
$NUM$ 6,036 (1.3%) 2,314 (0.7%) 189 (0.6%)
$V$ 101,484 (21.5%) 48,036 (15.1%) 4,254 (12.9%)
$REN$ 21,241 (4.5%) 2,158 (0.7%) 127 (0.4%)
$ADV$ 11,491 (2.4%) 7,631 (2.4%) 603 (1.8%)
$AJ$ 10,950 (2.3%) 6,193 (2.0%) 425 (1.3%)
$AJV$ 9,473 (2.0%) 6,273 (2.0%) 434 (1.3%)
$VP$ -- 58,908 (18.5%) 2,838 (8.6%)
$NP$ -- 40,629 (12.8%) 1,985 ( 6.0%)
$AJP$ -- 1,341 (0.4%) 78 (0.2%)
$AJVP$ -- 935 (0.3%) 37 (0.1%)
$ADVP$ -- 117 (0.0%) 8 (0.0%)
$CL$ -- -- 11,280 (34.3%)
合計 472,521 (100%) 317,755 (100%) 32,922 (100%)

 表4から,変数化の対象となり得る自立語は,名詞,本動詞,形容詞,形容動詞,副詞,連体詞を合わせて約76万語であったのに対して,表8によれば単語レベルで変数化されたものは47万語であるから,自立語の62%が変数化されたことになる.文型パターン当たりで見ると自立語5.9語中の3.7語が変数化され,非線形要素として字面のままとなったものは2.2語である.

 句レベルでは1つの句変数の中に複数の自立語が縮退された場合を含め,59万語(78%)が変数化されている.また,標本文に含まれる節は28.2万件であったのに対して,それが節変数化されたものは,1.13万件(4%)にすぎない.

 このことから,自立語,句,節のそれぞれ38%,22%,96%が非線形要素であったことになる.これを標本文数と対比すると,1文あたり,単語レベルでは平均2語あまり,句レベルでは平均1.3語程度の自立語が変数化されていない.このことから,標本文には,節レベルではもちろん,自立語でも非線形なものがかなり多く存在していることになる.

(2)
関数の使用頻度

 文型パターン全体で使用された関数の種類と頻度を表9に示す.この表から,文型パターン当たりの関数使用回数は単語レベルでは平均0.7回,句レベルでは0.95回,節レベルでは1.5回である.汎化のレベルが上がるにつれて関数の使用頻度が増えている点から,使用される変数の種類の違いだけでなく関数化の点でも汎化が進んでいることが分かる.

(3)
線形な文型パターンと非線形な文型パターン

 既に述べたように初期の段階で汎化不能として文型パターン化の対象外としたものが624件あったが,実際に作成した文型パターンのうち関数や変数が使用されず字面のままとなったものは単語レベルで302件存在した.いずれも線形要素を持たないと判定されたものである.対象標本12.9万件中,これらの割合が0.72%であることから,殆どの標本文(99%以上)は一つ以上の線形要素を持っていたこととなる.

 また逆に,字面を含まない文型パターンは,単語レベルで15件,句レベルで401件,節レベルで155件であった.このことから,いずれの場合も線形な文型は少ないが,特に,単語レベルで少ないことが分かる.

以上のように,殆どすべての重文・複文の構造は要素合成法の適さない非線形であるとは言え,その殆どすべてが1つ以上の線形要素(平均4〜5カ所)を持つ.これは,多様な言語表現がカバーできるような文型パターンが開発できる可能性を示しており,文型パターン翻訳は,用例翻訳の限界を超える方法として期待される.


表 9: 関数の使用回数
関数名 使用回数(割合)
(40種) 単語レベル 句レベル 節レベル
$ta$ 33,155 (38.42%) 33,138 (37.57%) 5,614 (36.23%)
$teiru$ 9,737 (11.28%) 11,090 (12.57%) 2,126 (13.72%)
$reru$ 8,663 (10.03%) 8,750 ( 9.92%) 1,282 ( 8.27%)
$da$ 7,879 ( 9.13%) 6,574 ( 7.36%) 693 ( 4.47%)
$nai$ 6,489 ( 7.52%) 6,426 ( 7.29%) 1,318 ( 8.51%)
$teinei$ 4,304 ( 4.99%) 4,815 ( 5.46%) 1,029 ( 6.64%)
$suitei$ 2,029 ( 2.35%) 2,374 ( 2.69%) 250 ( 1.61%)
$you$ 1,880 ( 2.18%) 1,799 ( 2.04%) 259 ( 1.67%)
$meirei$ 1,570 ( 1.82%) 1,331 ( 1.51%) 517 ( 3.34%)
$tekudasai$ 1,126 ( 1.30%) 994 ( 1.13%) 444 ( 2.87%)
$tekuru$ 1,040 ( 1.21%) 1,068 ( 1.21%) 302 ( 1.95%)
$joutaihenka$ 930 ( 1.08%) 1,417 ( 1.61%) 358 ( 2.31%)
$tai$ 905 ( 1.05%) 895 ( 1.01%) 51 ( 0.33%)
$tekureru$ 719 ( 0.83%) 707 ( 0.80%) 128 ( 0.83%)
$teshimatta$ 639 ( 0.74%) 526 ( 0.60%) 58 ( 0.37%)
$gimu$ 574 ( 0.67%) 648 ( 0.73%) 89 ( 0.57%)
$dekiru$ 542 ( 0.63%) 813 ( 0.92%) 80 ( 0.52%)
$sase$ 521 ( 0.60%) 694 ( 0.79%) 71 ( 0.46%)
$darou$ 505 ( 0.59%) 534 ( 0.61%) 184 ( 1.19%)
$teiku$ 399 ( 0.46%) 427 ( 0.48%) 57 ( 0.37%)
$temiru$ 391 ( 0.45%) 399 ( 0.45%) 60 ( 0.39%)
$teoku$ 326 ( 0.38%) 356 ( 0.40%) 59 ( 0.38%)
$sugiru$ 326 ( 0.38%) 317 ( 0.36%) 44 ( 0.28%)
$souda$ 291 ( 0.34%) 311 ( 0.35%) 63 ( 0.41%)
$utosuru$ 249 ( 0.29%) 232 ( 0.26%) 30 ( 0.19%)
$desu$ 215 ( 0.25%) 311 ( 0.35%) 28 ( 0.18%)
$kaishi$ 193 ( 0.22%) 211 ( 0.24%) 84 ( 0.54%)
$teshimau$ 189 ( 0.22%) 298 ( 0.34%) 75 ( 0.48%)
$tearu$ 189 ( 0.22%) 205 ( 0.23%) 64 ( 0.41%)
$yotei$ 65 ( 0.08%) 89 ( 0.10%) 4 ( 0.03%)
$rashii$ 53 ( 0.06%) 72 ( 0.08%) 23 ( 0.15%)
$nisuru$ 46 ( 0.05%) 198 ( 0.22%) 16 ( 0.10%)
$teyaru$ 45 ( 0.05%) 61 ( 0.07%) 7 ( 0.05%)
$teyoi$ 42 ( 0.05%) 40 ( 0.05%) 2 ( 0.01%)
$noda$ 38 ( 0.04%) 38 ( 0.04%) 23 ( 0.15%)
$hougayoi$ 31 ( 0.04%) 33 ( 0.04%) 2 ( 0.01%)
$katei$ 3 ( 0.00%) 2 ( 0.00%) 1 ( 0.01%)
$kirezu$ 1( 0.00%) 0 ( 0.00%) 0 ( 0.00%)
合計 86,295 88,193 15,495


next up previous
次へ: 汎化による文型パターンの同一化 上へ: 重文と複文の文型パターン化 戻る: 作成された文型パターンの例と数
平成16年8月30日