本論文では,「意味属性規則」を生成するに際して,汎用性が高く,数少ない規 則でカバー率をあげることを目標に,次元の低い規則から順に生成する方法を考 えた.また,各次元の規則の生成では,一度,生成に使用した事例は,事例集合 から削除し,残された事例から次の規則を生成する方法(「逐次型生成」)を採っ た.しかし,この方法は,事例数が少ないときは,解析精度の上で必ずしも良い 方法と言えない可能性がある.すなわち,初めの段階での規則生成では,かなり 多くの事例が存在するため,精度の良い規則が生成できるが,規則生成が進むに つれて,残された事例数が減少し,そこから生成される規則の精度が低下するこ とが予想される.この傾向は,事例数1万件の場合(表2)において,構造規則 の精度が,後に生成される規則ほど低下していることからも観察される.
そこで,ここでは,規則の生成に使用した事例を捨てないで,各次元の規則を生
成する方法(「同時型生成」と呼ぶ)について実験を行った.ただし,この方法
では,一つの事例が異なる次元や異なるタイプの規則の生成で,クラスの異なっ
た規則の生成に使用される可能性があるので,ここでは,得られた構造規則を使
用して係り受け解析を行う場合,同次元内の構造規則で適用可能なものはすべて
使用することとした.従って,解析では,異なった規則の適用によって異なった
係り受け結果が得られる場合が生じる.そこで,係り受け解析においては,以下
の方法で係り先を決定した.
<係り受け解析の手順>
実験の結果を表4と表5に示す.
表4 生成された構造規則の数と精度 | |||||||
番号 | 構造規則の種類 | 規則のタイプ | 得られた規則数 | カバー率 | 精度 | ||
1 | 78.5 | 9.0% | 91.5% | ||||
2 | 一次元規則 | 84.3 | 小計 | 8.8% | 小計 | 89.2% | |
3 | 60.3 | 223 | 6.2% | 19.3% | 87.6% | ||
4 | 974.6 | 59.3% | 90.2% | ||||
5 | 二次元規則 | 937.0 | 小計 | 69.8% | 小計 | 91.7% | |
6 | 947.2 | 2,859 | 67.0% | 85.8% | 91.3% | ||
7 | 三次元規則 | 2,455 | 91.0% | 91.0% | 86.7% | ||
合計 | - - - - - | 5,528 |
表5 係り受け解析への適用結果 | |||
規則の次元 | 適用事例数 | 累積頻度 | 正解率 |
一次元規則 | 1,925 (19.3%) | 1,925 (19.3%) | 91.7% |
二次元規則 | 6,594 (65.9%) | 8,519 (85.2%) | 90.7% |
三次元規則 | 1,083 (10.8%) | 9,602 (96.0%) | 68.4% |
字面規則 | 398 ( 4.0%) | - - - - - | - - |
合計 | 10,000 | 96.0% | 88.4% |
これらの結果を「逐次型生成」の場合の結果(表1)と比較すると,以下のこと
が分かる.
これより,事例数1万件を使用したとき,「同時型生成法」は,「逐次型生成法」 に比べて,カバー率が約向上し,解析精度は,向上することが分か る.しかし,その代わりに生成される規則規則数は,ほぼ3倍に増加しているこ とを考えると.事例数の少ないときに使用するのが適切と思われる.