Next: 相互情報量の効果
Up: 実験結果と考察
Previous: 実験結果と考察
重文の表現パターン抽出の場合の表現の種類数を表7に示す。
表中の「γ」は置き換えた単語、「/」は単語境界を表している。
表 7:
重文の表現パターン抽出の場合の表現の種類数
|
連鎖共起 |
離散共起(2組) |
離散共起(3組) |
N-gram出力時 |
36,895 |
668,385 |
出力不能 |
単語境界付加 |
21,914 |
386,322 |
出力不能 |
置き換え処理 |
11,035 |
125,449 |
690,601 |
N-gram出力時 |
|
|
|
置き換え処理 |
5,615 |
31,185 |
78,436 |
単語境界付加 |
|
|
|
置き換え処理 |
|
|
|
単語境界付加 及び |
5,614 |
23,067 |
43,178 |
/γ/のみと共起 |
|
(81.7%減少) |
(93.8%減少) |
している表現の削除 |
|
|
|
表7の表現の種類数は、重文の表現パターン抽出の場合であ
り、動詞、接続助詞、副助詞、格助詞(に、より、を、をば)、副詞、接続詞、
助動詞以外を一単語「γ」に置き換えた場合の表現の種類数である。
- 置き換えを行なわない場合、N-gram出力時、単語境界付加の離散共起(3組)
は表現が増えすぎて、計算機では出力不能となった。
- 置き換え処理後のN-gram出力時と比べて、置き換え処理後の単語境界付加及
び、/γ/のみと共起している表現の削除を行なった場合では、表現の種類が、
離散共起(2組)で、81.7%、離散共起(3組)で、93.8%減少した。
実験の結果、形態素の情報を用いて単語境界を明示し利用することで、大幅に
断片的な文字列が減少した。また、置き換え文字列である/γ/のみと共起し
ている表現を削除すると表現が減少した。
MatobaKazuyuki
平成11年4月15日