next up previous contents
Next: 考察(表現抽出) Up: 表現の抽出 Previous: 表現の抽出

実験結果(表現抽出)

サンプルテスト行った結果をもとに、実際に表現抽出を行う。 表現抽出に適している 離散置き換えBと連鎖置き換えBを使用して、大規模コーパスに適用した。

また、連鎖共起抽出方法・離散共起抽出方法のそれぞれに 長所短所があるので、両方を使って表現を抽出した。

以下には連鎖表現抽出方法・離散表現抽出方法それぞれから抽出された結果の例 を示す。

 
Table: 連鎖表現の結果の例
予定されている〜は〜延期される〜だ(2)
得ない〜との〜が強まっている(2)
視したうえ〜の〜も行わずに〜を否定した〜は〜と(2)
閉鎖する〜を〜にした(2)
入院していた〜の〜を退院した(2)
定されていたことが〜分かった(2)
残る〜は〜に引き継いだ〜が確定した〜で処理していく〜(2)
停止する〜が進む〜の〜も〜にされた(2)
調べたところ〜の〜が発覚したのが影響した(2)
認定したことを〜の〜を否定し〜を分裂させる〜(2)



 
Table: 離散表現の結果の例
いよいよ〜する〜 | たって〜お願いする〜である(2)
もしかしたら〜 | いた〜かもしれない(2)
許す〜許さない〜 | 〜もっと〜にすれば〜住み〜くなるだろう(2)
そのため〜 | 〜抱きながら〜送っている(2)
〜足りないので〜 | すことにした(2)
〜たら〜 | していただろう(2)


離散表現は2つの連鎖表現が共起したものなので、間にある線によって表現が区 切られる。後ろに記してある数字は、その表現が原文中にでてきた回数である。

以下にはサンプルテストとして、算出した含有率が正しいかどうかしらべるため、 大規模コーパスにおける連鎖置き換えBと離散置き換えBの含有率を示す。



 
Table: 大規模コーパスにおける含有率
置き換え 含有率
連鎖置き換え 6.9%
離散置き換え 19.7%

それぞれの抽出方法によって抽出された適正な表現の数の表を示す。

 
Table: 抽出された適正表現数
置き換え 適正表現数
連鎖置き換え 89846
離散置き換え 1041


表中の適正表現数とはそれぞれの置き換えによって抽出された、重文複文に関する 表現の種類の合計数である。



また以下にデータ量に応じて、計算可能かどうか示した表を記す。



 
Table: 計算量
抽出方法 1万文 1年分  
連鎖共起抽出方法  
離散共起抽出方法(2組)  
離散共起抽出方法(3組) 不可  
離散共起抽出方法(4組) 不可 不可  


表にある1万文とは、今回使用したサンプルテストで使用した毎日新聞記事1万文 と同じで、1年分とは表現抽出で使用した毎日新聞記事1年分と同じデータである。 「可」と「不可」とは、抽出方法ごとに、計算機によるN-gram統計処理が 可能かどうかを表したものである。結果が出力されなかったものを計算不可と した。


next up previous contents
Next: 考察(表現抽出) Up: 表現の抽出 Previous: 表現の抽出

2000-04-09