next up previous contents
Next: 表現の抽出 Up: 含有率算出 Previous: 実験結果(サンプルテスト)

考察(サンプルテスト)

サンプルテストによって、どの置き換えが表現抽出に適しているかしらべた結果、 次のことがわかった。



以下に連鎖置き換えCによって抽出された表現の例を示す。

 
Table: 連鎖置き換えCの結果の例
〜できる〜開発した(2)
〜終えた〜考えられる(2)
〜据え置く〜だ(2)
〜たたいて育てたく〜読んで〜(2)


上記の結果の例より、連鎖置き換えCは動詞に関係のないすべての品詞を置き換え ているため、副詞等の重文複文に関する品詞も置き換えてしまっている。 そのため、文を構成する品詞が動詞だけになってしまい、重文複文における構造 もつかみにくくなっている。

そこで連鎖置き換えの中から文構造のよくわかる連鎖置き換えBが重文複文における 表現の種類や度数を 調べるのに適していると思われる。また 離散置き換えの中からは含有率の最も高かった離散置き換えBが表現の種類や度数を 調べるのに適していると思われる。

また、重文複文における表現を抽出するうえで、連鎖共起抽出方法、離散共起抽出方法 それぞれに長所短所があることがわかった。

まず、連鎖共起抽出方法の長所短所を示す。

長所1
少ない計算量で、3組4組の表現抽出も可能
長所2
目的の表現の種類を離散より発見することが可能
短所1
不要な表現も多数でてしまう
短所2
置き換えが必要なため、文の構造がわかりくくなる



次に離散共起抽出方法の長所短所を示す。

長所
まとまった表現、離れた表現の両方抽出可能
短所1
離れた表現が近くにあるように見えてしまう
短所2
組み合わせ表現数が増えるにつれ、計算量が膨大になる
短所3
表現がダブったり、重なったりしてしまう

以上のように連鎖共起抽出方法・離散共起抽出方法のそれぞれに長所短所がある ので、表現の抽出には両方の方法を使用する必要がある。




2000-04-09