next up previous contents
Next: 含有率算出 Up: 実験方法 Previous: 本手法の手順

実験全体の流れ

実験の全体の流れを以下に示す。








実験1:サンプルテスト


  
Figure: 全体の流れ
\begin{figure}
\vspace{-40mm}\begin{center}
置き換えテーブルの作成\\
↓\\
\par...
...適用}\\
\par ↓\\
表現抽出\\ \hline
\par\end{tabular}
\end{center}\end{figure}


実験1とはサンプルテストとして、 どの置き換えが表現の種類を抽出するのに適しているかを調 べるため、毎日新聞 95年度の一面記事 1万文に本手法を適用したものである。 手法適用とは図3に示した流れで行われる手法を適用したものである。 置き換えは表1、2にある置き換えを順々に適用していった。 評価方法として以下のような評価式を使って、計算を行った。


[0cm][0cm] 適正表現含有率=

連鎖 (離散)表現種類数

全連鎖(離散)表現種類数

 

含有率は全N-gram出力表現結果の 中に重文・複文に関する表現がどれだけ含まれているかを表すもので、 含有率が高い置き換えほど、効率よく重文・複文にに関する表現を抽出することができ る。 この含有率の結果とそれぞれの置き換えの性質より、どの置き換えが 表現抽出に適しているかをしらべる。

実験2には大規模コーパス適用として毎日新聞 95年度の一年160万文を使用し、 実際に表現の種類や度数を抽出した。 置き換えは上記で調べ表現抽出に適していると思われた置き換えを使用した。




2000-04-09