next up previous
次へ: 一部包含関係にあるパターン 上へ: 考察 戻る: 考察

出現頻度と削減率の関係

包含関係により削減したパターン数と,出現頻度との関係を調査した. 出現頻度は,本稿で用いたパターンが適合した原文の数で, パターンと全原文との間の照合実験により求めた. 調査結果を表4に示す.


表 4: 出現頻度データと包含関係による削減結果の関係
出現頻度 パターン数 削減パターン数
1,000文以上 275 (0.2%) 195 (70.9%)
100文以上1,000文未満 1,013 (0.8%) 502 (49.6%)
10文以上 100文未満 3,194 (2.6%) 983 (30.8%)
2文以上 10文未満 13,140 (10.7%) 3,255 (24.8%)
小計 17,622 (14.4%) 4,935 (28.0%)
1文以下 104,997 (85.6%) 4,917 (4.7%)
合計 122,619 (100.0%) 9,852 (8.0%)

4より, 出現頻度が大きくなると削減したパターンが占める割合(削減率)が大きくなるが, 出現頻度が小さくなると削減率も小さくなる傾向がある.

以下に,具体例を示す.

削減率が最も小さい,出現頻度が1文以下のパターンの内,包含関係を持たないパターン例を以下に示す.


出現頻度が小さいパターンには,非線形要素(字面)が多く含まれる傾向がある. パターン化において,変数への置換によって表現構造全体の意味が変化する要素は, 非線形要素として字面のまま記述する. 従って,非線形要素を多く含むパターンが,パターン辞書中に占める割合が大きいことより, 出現頻度が小さいパターンに特有の表現を持つものが多いと考えられる.


next up previous
次へ: 一部包含関係にあるパターン 上へ: 考察 戻る: 考察
平成18年5月1日