next up previous
次へ: NLP_sentaku2 上へ: NLP_sentaku2 戻る: NLP_sentaku2

startsection subsection2@0.20.05選択記号の表現要素数に関する調査 パターン辞書(4)は, 既存の選択記号から新たに選択記号を作成し, その中で最 も長い選択符号に均一化している. 新たに作成した選択記号で均一化したパター ンの選択記号の表現要素が適合率を向上 させる効果があるかを調査するため, 以下の実験を行った.

入力文12万文に対しパターン照合を行い, 各選択記号に対して照合の 際に使用された頻度をとった. そして各表現要素位置における使用された頻度 の平均値を求めた. 調査結果を表3に示す.




表 3: 選択記号で使用される表現要素の位置の平均
表現要素位置 割合
第1要素 86.800
第2要素 11.655
第3要素 1.267
第4要素 0.202
第5要素 0.059
第6要素 0.013
第7要素 0.002
第8要素以降 0

表3より, 全体の98%は第2要素までに使用していることが分かった. これにより, 最も表現要素数が長い選択記号に均一化し, 選択記号の表現要素数 を増加させても適合率の向上が低いことが分かった.



root 平成18年3月24日