next up previous
次へ: (2)事例数と構造規則の関係について 上へ: 検討 戻る: 検討

(1)「逐次型生成」と「同時型生成」の比較

本論文では,「意味属性規則」を生成するに際して,汎用性が高く,数少ない規 則でカバー率をあげることを目標に,次元の低い規則から順に生成する方法を考 えた.また,各次元の規則の生成では,一度,生成に使用した事例は,事例集合 から削除し,残された事例から次の規則を生成する方法(「逐次型生成」)を採っ た.しかし,この方法は,事例数が少ないときは,解析精度の上で必ずしも良い 方法と言えない可能性がある.すなわち,初めの段階での規則生成では,かなり 多くの事例が存在するため,精度の良い規則が生成できるが,規則生成が進むに つれて,残された事例数が減少し,そこから生成される規則の精度が低下するこ とが予想される.この傾向は,事例数1万件の場合(表2)において,構造規則 の精度が,後に生成される規則ほど低下していることからも観察される.

そこで,ここでは,規則の生成に使用した事例を捨てないで,各次元の規則を生 成する方法(「同時型生成」と呼ぶ)について実験を行った.ただし,この方法 では,一つの事例が異なる次元や異なるタイプの規則の生成で,クラスの異なっ た規則の生成に使用される可能性があるので,ここでは,得られた構造規則を使 用して係り受け解析を行う場合,同次元内の構造規則で適用可能なものはすべて 使用することとした.従って,解析では,異なった規則の適用によって異なった 係り受け結果が得られる場合が生じる.そこで,係り受け解析においては,以下 の方法で係り先を決定した.

<係り受け解析の手順>

  1. 係り受け解析規則は,一次元規則,二次元規則,三次元規則の順に適用する.

  2. 同次元内の複数の規則が適用され異なる係り先が得られた場合は,その次元 での判定は保留し,次の次元での結果に従う.

実験の結果を表4と表5に示す.

表4 生成された構造規則の数と精度
番号 構造規則の種類 規則のタイプ 得られた規則数 カバー率 精度
1 ${(X,*,*,D)}$ 78.5 9.0% 91.5%
2 一次元規則 ${(*,Y,*,D)}$ 84.3 小計 8.8% 小計 89.2%
3 ${(*,*,Z,D)}$ 60.3 223 6.2% 19.3% 87.6%
4 ${(X,Y,*,D)}$ 974.6 59.3% 90.2%
5 二次元規則 ${(*,Y,Z,D)}$ 937.0 小計 69.8% 小計 91.7%
6 ${(X,*,Z,D)}$ 947.2 2,859 67.0% 85.8% 91.3%
7 三次元規則 ${(X,Y,Z,D)}$ 2,455 91.0% 91.0% 86.7%
合計 - - - - - 5,528
表5 係り受け解析への適用結果
規則の次元 適用事例数 累積頻度 正解率
一次元規則 1,925 (19.3%) 1,925 (19.3%) 91.7%
二次元規則 6,594 (65.9%) 8,519 (85.2%) 90.7%
三次元規則 1,083 (10.8%) 9,602 (96.0%) 68.4%
字面規則 398 ( 4.0%) - - - - - - -
合計 10,000 96.0% 88.4%

これらの結果を「逐次型生成」の場合の結果(表1)と比較すると,以下のこと が分かる.

  1. 「同時型生成法」で生成された規則は,一次元規則,二次元規則に比べ て,三次元規則の精度が若干悪いが,「逐次型生成」(表2)の場合と 比べるとかなり向上している.
  2. 規則のカバー率は,三次元規則が最大$(91\%)$で,次元が下がるにつれ て,低下する.
  3. これらの結果,「逐次型生成」に比べて,「同時型生成」では,規則全 体のカバー率が,$89.8\%$から$96\%$に向上し,解析正解率は,$85.8\%$から $88.4\%$に向上している.
  4. しかし,「同時型生成法」で生成された規則数は,「逐次型生成法」の 場合(1,815件)に比べてから,約3倍(5,528件)に増大している.

これより,事例数1万件を使用したとき,「同時型生成法」は,「逐次型生成法」 に比べて,カバー率が約$6\%$向上し,解析精度は,$2〜3\%$向上することが分か る.しかし,その代わりに生成される規則規則数は,ほぼ3倍に増加しているこ とを考えると.事例数の少ないときに使用するのが適切と思われる.


next up previous
次へ: (2)事例数と構造規則の関係について 上へ: 検討 戻る: 検討
Jin'ichi Murakami 平成13年9月13日