next up previous contents
Next: 相互情報量の効果 Up: 実験結果と考察 Previous: 実験結果と考察

表現の種類数

重文の表現パターン抽出の場合の表現の種類数を表7に示す。 表中の「γ」は置き換えた単語、「/」は単語境界を表している。


 
表 7: 重文の表現パターン抽出の場合の表現の種類数
  連鎖共起 離散共起(2組) 離散共起(3組)
N-gram出力時 36,895 668,385 出力不能
単語境界付加 21,914 386,322 出力不能
置き換え処理 11,035 125,449 690,601
N-gram出力時      
置き換え処理 5,615 31,185 78,436
単語境界付加      
置き換え処理      
単語境界付加 及び 5,614 23,067 43,178
/γ/のみと共起   (81.7%減少) (93.8%減少)
している表現の削除      

7の表現の種類数は、重文の表現パターン抽出の場合であ り、動詞、接続助詞、副助詞、格助詞(に、より、を、をば)、副詞、接続詞、 助動詞以外を一単語「γ」に置き換えた場合の表現の種類数である。

実験の結果、形態素の情報を用いて単語境界を明示し利用することで、大幅に 断片的な文字列が減少した。また、置き換え文字列である/γ/のみと共起し ている表現を削除すると表現が減少した。



MatobaKazuyuki 平成11年4月15日