Next: 表現の抽出
Up: 含有率算出
Previous: 実験結果(サンプルテスト)
サンプルテストによって、どの置き換えが表現抽出に適しているかしらべた結果、
次のことがわかった。
- 置き換える品詞数が多いほど含有率が上がっている
- 置き換える品詞数が多いほど抽出される表現種類が減っている
- 含有率は連鎖置き換えCと離散置き換えBが最も高い
- 連鎖置き換えCは文構造がわからなくなっているという問題点がある
以下に連鎖置き換えCによって抽出された表現の例を示す。
Table:
連鎖置き換えCの結果の例
〜できる〜開発した(2) |
〜終えた〜考えられる(2) |
〜据え置く〜だ(2) |
〜たたいて育てたく〜読んで〜(2) |
|
上記の結果の例より、連鎖置き換えCは動詞に関係のないすべての品詞を置き換え
ているため、副詞等の重文複文に関する品詞も置き換えてしまっている。
そのため、文を構成する品詞が動詞だけになってしまい、重文複文における構造
もつかみにくくなっている。
そこで連鎖置き換えの中から文構造のよくわかる連鎖置き換えBが重文複文における
表現の種類や度数を
調べるのに適していると思われる。また
離散置き換えの中からは含有率の最も高かった離散置き換えBが表現の種類や度数を
調べるのに適していると思われる。
また、重文複文における表現を抽出するうえで、連鎖共起抽出方法、離散共起抽出方法
それぞれに長所短所があることがわかった。
まず、連鎖共起抽出方法の長所短所を示す。
- 長所1
- 少ない計算量で、3組4組の表現抽出も可能
- 長所2
- 目的の表現の種類を離散より発見することが可能
- 短所1
- 不要な表現も多数でてしまう
- 短所2
- 置き換えが必要なため、文の構造がわかりくくなる
次に離散共起抽出方法の長所短所を示す。
- 長所
- まとまった表現、離れた表現の両方抽出可能
- 短所1
- 離れた表現が近くにあるように見えてしまう
- 短所2
- 組み合わせ表現数が増えるにつれ、計算量が膨大になる
- 短所3
- 表現がダブったり、重なったりしてしまう
以上のように連鎖共起抽出方法・離散共起抽出方法のそれぞれに長所短所がある
ので、表現の抽出には両方の方法を使用する必要がある。
2000-04-09