実験1:サンプルテスト
[0cm][0cm] 適正表現含有率= |
連鎖 (離散)表現種類数 |
全連鎖(離散)表現種類数 | |
含有率は全N-gram出力表現結果の 中に重文・複文に関する表現がどれだけ含まれているかを表すもので、 含有率が高い置き換えほど、効率よく重文・複文にに関する表現を抽出することができ る。 この含有率の結果とそれぞれの置き換えの性質より、どの置き換えが 表現抽出に適しているかをしらべる。
実験2には大規模コーパス適用として毎日新聞 95年度の一年160万文を使用し、 実際に表現の種類や度数を抽出した。 置き換えは上記で調べ表現抽出に適していると思われた置き換えを使用した。