(1)「逐次型生成」と「同時型生成」の比較

次へ: (2)事例数と構造規則の関係について 上へ: 検討 戻る: 検討

(1)「逐次型生成」と「同時型生成」の比較

本論文では，「意味属性規則」を生成するに際して，汎用性が高く，数少ない規則でカバー率をあげることを目標に，次元の低い規則から順に生成する方法を考えた．また，各次元の規則の生成では，一度，生成に使用した事例は，事例集合から削除し，残された事例から次の規則を生成する方法(「逐次型生成」)を採った．しかし，この方法は，事例数が少ないときは，解析精度の上で必ずしも良い方法と言えない可能性がある．すなわち，初めの段階での規則生成では，かなり多くの事例が存在するため，精度の良い規則が生成できるが，規則生成が進むにつれて，残された事例数が減少し，そこから生成される規則の精度が低下することが予想される．この傾向は，事例数1万件の場合(表2)において，構造規則の精度が，後に生成される規則ほど低下していることからも観察される．

そこで，ここでは，規則の生成に使用した事例を捨てないで，各次元の規則を生成する方法(「同時型生成」と呼ぶ)について実験を行った．ただし，この方法では，一つの事例が異なる次元や異なるタイプの規則の生成で，クラスの異なった規則の生成に使用される可能性があるので，ここでは，得られた構造規則を使用して係り受け解析を行う場合，同次元内の構造規則で適用可能なものはすべて使用することとした．従って，解析では，異なった規則の適用によって異なった係り受け結果が得られる場合が生じる．そこで，係り受け解析においては，以下の方法で係り先を決定した．

＜係り受け解析の手順＞

係り受け解析規則は，一次元規則，二次元規則，三次元規則の順に適用する．
同次元内の複数の規則が適用され異なる係り先が得られた場合は，その次元での判定は保留し，次の次元での結果に従う．

実験の結果を表4と表5に示す．

表4 生成された構造規則の数と精度
番号	構造規則の種類	規則のタイプ	得られた規則数		カバー率		精度
1			78.5		9.0%		91.5%
2	一次元規則		84.3	小計	8.8%	小計	89.2%
3			60.3	223	6.2%	19.3%	87.6%
4			974.6		59.3%		90.2%
5	二次元規則		937.0	小計	69.8%	小計	91.7%
6			947.2	2,859	67.0%	85.8%	91.3%
7	三次元規則		2,455		91.0%	91.0%	86.7%
合計		- - - - -	5,528

表5 係り受け解析への適用結果
規則の次元	適用事例数	累積頻度	正解率
一次元規則	1,925 (19.3%)	1,925 (19.3%)	91.7%
二次元規則	6,594 (65.9%)	8,519 (85.2%)	90.7%
三次元規則	1,083 (10.8%)	9,602 (96.0%)	68.4%
字面規則	398 ( 4.0%)	- - - - -	- -
合計	10,000	96.0%	88.4%

これらの結果を「逐次型生成」の場合の結果(表1)と比較すると，以下のことが分かる．

「同時型生成法」で生成された規則は，一次元規則，二次元規則に比べて，三次元規則の精度が若干悪いが，「逐次型生成」(表2)の場合と比べるとかなり向上している．
規則のカバー率は，三次元規則が最大 $(91\%)$ で，次元が下がるにつれて，低下する．
これらの結果，「逐次型生成」に比べて，「同時型生成」では，規則全体のカバー率が， $89.8\%$ から $96\%$ に向上し，解析正解率は， $85.8\%$ から $88.4\%$ に向上している．
しかし，「同時型生成法」で生成された規則数は，「逐次型生成法」の場合(1,815件)に比べてから，約3倍(5,528件)に増大している．

これより，事例数1万件を使用したとき，「同時型生成法」は，「逐次型生成法」に比べて，カバー率が約 $6\%$ 向上し，解析精度は， $2～3\%$ 向上することが分かる．しかし，その代わりに生成される規則規則数は，ほぼ3倍に増加していることを考えると．事例数の少ないときに使用するのが適切と思われる．

次へ: (2)事例数と構造規則の関係について 上へ: 検討 戻る: 検討

Jin'ichi Murakami 平成13年9月13日