next up previous contents
Next: おわりに Up: 表現の抽出 Previous: 実験結果(表現抽出)

考察(表現抽出)

表6、表7から、重文・複文に関する表現が、連鎖表現・離散表現それぞ れに抽出できていることがわかる。 しかし一方で、重文・複文に関係のない表現も多数、抽出されてしまい、 また重文・複文に関する表現ではあっても適切とは言えない例も多数 抽出されていた。

以下に連鎖表現抽出方法から抽出された適切とは言えない例を示す。

 
Table: 連鎖表現の不適切な例
1.返っ〜になっ(2)
2.る〜の〜を求めている(9)





同様に離散表現表現抽出方法から抽出された不適切な例を示す。

 
Table: 離散表現の不適切な例
1.あまり読んでいない | 読んでいない〜(2)
2.しらず | 〜引き込まれていく(2)


以上のように連鎖表現の不適切な例は置き換えや抑制法などのシステム的なもの であるため修正は容易であるが、離散表現の不適切な例は離散表現の抽出方法の 問題であるため、離散表現による発見方法そのものを見直す必要があると言える。

表8よりサンプルテストとの含有率の比較をすると、大体一致していること がわかる。

表9より連鎖置き換えと離散置き換えによって、合計約9万件の重文複 文に関する表現を抽出することができた。

計算量については 表10のように離散共起抽出方法は共起する組合せが増えるにつれ、計算量も増えて 4組の離散共起抽出方法では新聞記事1万文ですら、計算にすることはできない。 そこで、3組以上の離れた表現を発見するためには、適切な置き換えを施した 連鎖共起抽出方法や2組の離散共起抽出方法を使用する必要があることがわかる。




2000-04-09