next up previous contents
次へ: 人手で言い換えた入力文を用いた調査 上へ: 考察 戻る: 考察   目次

選択記号の表現要素数に関する調査

単語レベル文型パターン辞書(4)は, 既存の選択記号から新たに選択記号を作成 し, その中で最も長い選択符号に均一化している. この単語レベル文型パターン 辞書(4)の選択記号の表現要素が適合率を向上させる効果があるかを調査するた め, 以下の実験を行った.

入力文12万文に対し文型パターンパーサで照合を行い, 各選択記号に対して照合の 際に使用された頻度をとった. そして各表現要素位置における使用された頻度 の平均値を求めた. 調査結果を表4に示す.


表 4: 選択記号で使用される表現要素の位置の平均
表現要素位置 割合
第1要素 86.800
第2要素 11.655
第3要素 1.267
第4要素 0.202
第5要素 0.059
第6要素 0.013
第7要素 0.002
第8要素以降 0

表4より, 全体の98%は第2要素までに使用している. これにより, 最も表現要素数が長い選択記号に均一化し, 選択記号の表現要素数 を増加させても適合率の向上が低いことが分かった.

以下に, 例としてSENAQX(取っ|とっ|奪っ|採っ|撮っ|執っ|獲っ|捕っ| 盗っ|搴っ|攬っ)の表現要素の使用頻度を示す.


表 5: SENAQXの表現要素の使用頻度
区別 表現要素 使用回数 使用割合
+ 取っ 919 53.711280%
+ とっ 651 38.047925%
+ 奪っ 99 5.786090%
+ 採っ 22 1.285798%
+ 撮っ 15 0.876680%
+ 執っ 5 0.292227%
! 獲っ 0 0.0%
! 捕っ 0 0.0%
! 盗っ 0 0.0%
! 搴っ 0 0.0%
! 攬っ 0 0.0%
  1711  

ここで, ``+''はその表現要素が1度でも使用されていることを示し, ``!''はそ の表現要素が1度も使用されていないことを示す.


next up previous contents
次へ: 人手で言い換えた入力文を用いた調査 上へ: 考察 戻る: 考察   目次
平成18年3月24日