Next: おわりに
Up: 表現の抽出
Previous: 実験結果(表現抽出)
表6、表7から、重文・複文に関する表現が、連鎖表現・離散表現それぞ
れに抽出できていることがわかる。
しかし一方で、重文・複文に関係のない表現も多数、抽出されてしまい、
また重文・複文に関する表現ではあっても適切とは言えない例も多数
抽出されていた。
以下に連鎖表現抽出方法から抽出された適切とは言えない例を示す。
Table:
連鎖表現の不適切な例
1.返っ〜になっ(2) |
2.る〜の〜を求めている(9) |
|
- 連鎖表現の1の例は動詞の一部に置き換えがされてしまっているため、置き換え
しすぎであったと考えられる。これを修正するには
置き換えと構造のわかりやすさのバランスを考えて置き換えを修正する必要がある。
- 連鎖表現の2の例は表現が断片的であり、度数の多い部分に多かった。こ
れは弱抑制で行っているため、部分文字列が出てきてしまったためと考え
られるので、このような文字列が不要な場合は強抑制で行えばいい。
同様に離散表現表現抽出方法から抽出された不適切な例を示す。
Table:
離散表現の不適切な例
1.あまり読んでいない | 読んでいない〜(2) |
2.しらず | 〜引き込まれていく(2) |
- 離散表現の1の例は「読んでいない」という部分が、前の文字列と後ろの
文字列と同じ部分を2度使用してしまっているために出てきた例である。
- 離散表現の2の例は、前の文字列が「しらずしらず」の形で、後ろの文字
列と重複して共起してしまったことで抽出されてしまったである。
以上のように連鎖表現の不適切な例は置き換えや抑制法などのシステム的なもの
であるため修正は容易であるが、離散表現の不適切な例は離散表現の抽出方法の
問題であるため、離散表現による発見方法そのものを見直す必要があると言える。
表8よりサンプルテストとの含有率の比較をすると、大体一致していること
がわかる。
表9より連鎖置き換えと離散置き換えによって、合計約9万件の重文複
文に関する表現を抽出することができた。
計算量については
表10のように離散共起抽出方法は共起する組合せが増えるにつれ、計算量も増えて
4組の離散共起抽出方法では新聞記事1万文ですら、計算にすることはできない。
そこで、3組以上の離れた表現を発見するためには、適切な置き換えを施した
連鎖共起抽出方法や2組の離散共起抽出方法を使用する必要があることがわかる。
2000-04-09