next up previous contents
次へ: 出現頻度1000文以上のパターンの例 上へ: 実験結果 戻る: 包含関係を用いた削減結果   目次

出現頻度データとの関係

包含関係により削減したパターン数と,出現頻度との関係を調査した. 出現頻度は,本研究で用いたパターンが適合した原文の数で, パターンと全原文との間の照合実験により求めた. 2文以上に適合したパターンについて,図2に示す.

図 2: 出現頻度データ
\includegraphics[width=0.9\textwidth,keepaspectratio=true]{pattern_frequency_graph.eps}

調査結果を表7に示す.


表 7: 出現頻度データと包含関係による削減結果の関係
出現頻度 パターン数 削減パターン数   
1000文以上 275  (  0.2%) 195  (70.9%)
100文以上1000文未満 1,013  (  0.8%) 502  (49.6%)
100文未満10文以上 3,194  (  2.6%) 983  (30.8%)
10文未満2文以上 13,140  ( 10.7%) 3,255  (24.8%)
小計 17,622  ( 14.4%) 4,935  (28.0%)
1文以下 104,997  ( 85.6%) 4,917  ( 4.7%)
合計 122,619  (100.0%) 9,852  ( 8.0%)

7より,以下のことが示される.

  1. 出現頻度が大きいパターンは削減率が大きい.
  2. 出現頻度が小さいパターンは削減率が小さい.



Subsections

Keichiro Katayama 平成17年5月20日