入力文12万文に対し文型パターンパーサで照合を行い, 各選択記号に対して照合の 際に使用された頻度をとった. そして各表現要素位置における使用された頻度 の平均値を求めた. 調査結果を表4に示す.
表現要素位置 | 割合 |
第1要素 | 86.800 |
第2要素 | 11.655 |
第3要素 | 1.267 |
第4要素 | 0.202 |
第5要素 | 0.059 |
第6要素 | 0.013 |
第7要素 | 0.002 |
第8要素以降 | 0 |
表4より, 全体の98%は第2要素までに使用している. これにより, 最も表現要素数が長い選択記号に均一化し, 選択記号の表現要素数 を増加させても適合率の向上が低いことが分かった.
以下に, 例としてSENAQX(取っ|とっ|奪っ|採っ|撮っ|執っ|獲っ|捕っ| 盗っ|搴っ|攬っ)の表現要素の使用頻度を示す.
区別 | 表現要素 | 使用回数 | 使用割合 |
+ | 取っ | 919 | 53.711280% |
+ | とっ | 651 | 38.047925% |
+ | 奪っ | 99 | 5.786090% |
+ | 採っ | 22 | 1.285798% |
+ | 撮っ | 15 | 0.876680% |
+ | 執っ | 5 | 0.292227% |
! | 獲っ | 0 | 0.0% |
! | 捕っ | 0 | 0.0% |
! | 盗っ | 0 | 0.0% |
! | 搴っ | 0 | 0.0% |
! | 攬っ | 0 | 0.0% |
計 | 1711 |
ここで, ``+''はその表現要素が1度でも使用されていることを示し, ``!
''はそ
の表現要素が1度も使用されていないことを示す.