次へ: 一部包含関係にあるパターン
上へ: 考察
戻る: 考察
包含関係により削減したパターン数と,出現頻度との関係を調査した.
出現頻度は,本稿で用いたパターンが適合した原文の数で,
パターンと全原文との間の照合実験により求めた.
調査結果を表4に示す.
表 4:
出現頻度データと包含関係による削減結果の関係
出現頻度 |
パターン数 |
削減パターン数 |
1,000文以上 |
275 |
(0.2%) |
195 |
(70.9%) |
100文以上1,000文未満 |
1,013 |
(0.8%) |
502 |
(49.6%) |
10文以上 100文未満 |
3,194 |
(2.6%) |
983 |
(30.8%) |
2文以上 10文未満 |
13,140 |
(10.7%) |
3,255 |
(24.8%) |
小計 |
17,622 |
(14.4%) |
4,935 |
(28.0%) |
1文以下 |
104,997 |
(85.6%) |
4,917 |
(4.7%) |
合計 |
122,619 |
(100.0%) |
9,852 |
(8.0%) |
表4より,
出現頻度が大きくなると削減したパターンが占める割合(削減率)が大きくなるが,
出現頻度が小さくなると削減率も小さくなる傾向がある.
以下に,具体例を示す.
- 出現頻度が大きいパターンの例
(出現頻度:P 6=8,769, P 7=8,765)
P 6: /y </tk N 1 は> /tcfk (ND 2 を /cf し|V 2)
て /cf (V 3.kako|ND 3 をした)。
P 7: /y </tk N 1 は> /tcfk (ND 2 を /cf し|V 2)
て /cf V 3.kako。
|
- 出現頻度が小さいパターンの例
(出現頻度:P 8=2, P 9=1)
P 8: /ytk N 1 の /f V 2^rentai ! ことにも /tcfk
一面の /k N 3 は /cf ある。
P 9: /ytk きみの /f 言う ! ことにも /tcfk
一面の /k 真理は /cf ある。
|
削減率が最も小さい,出現頻度が1文以下のパターンの内,包含関係を持たないパターン例を以下に示す.
- /ytk N 1 が /tcfk N 2 に /cf 対し /f 不利な
! N 3 を /cf V 4.kako。
- /y $1^{/tk N 1 は} /cf 信じられないと /cf 言う
(ように|様に) $1 /tk N 2 を /cf V 3.kako。
出現頻度が小さいパターンには,非線形要素(字面)が多く含まれる傾向がある.
パターン化において,変数への置換によって表現構造全体の意味が変化する要素は,
非線形要素として字面のまま記述する.
従って,非線形要素を多く含むパターンが,パターン辞書中に占める割合が大きいことより,
出現頻度が小さいパターンに特有の表現を持つものが多いと考えられる.
次へ: 一部包含関係にあるパターン
上へ: 考察
戻る: 考察
平成18年5月1日