next up previous
次へ: (3)文型パターン種別と被覆率特性の関係 上へ: 被覆率特性と飽和特性 戻る: b)文型パターンにカバーされない入力文要素

(2)被覆率の飽和特性

次に,「異なり文型パターン数」と「文型一致率$R2$」(×印)の関係を図1に示す.図中,文型パターン数2.5万件以下の部分(波線)は外挿したものである.また,参考のため,全体の文型パターンでの「文型再現率$R1$」(○印)の値も図示した.

これより,以下のことが分かる.

(1)
単語レベル,句レベルのいずれの文型パターンも,「異なり文型パターン数」が数万件になると飽和傾向が現れる.
(2)
いずれの場合も「異なり文型パターン数」が1万件以下では,有効な被覆率は得られそうにない.
(3)
「文型一致率$R2$」は,まだまだ向上の余地は残されているが,現在の文型パターン化の方法では,現状(10万件程度)の文型パターン数をこれ以上増加させても,被覆率の向上はあまり期待できそうにない.

図 1: 文型一致率(文字数で見た再現率)
\begin{figure}\centerline{
\epsfxsize=80mm % 横方向の大きさの指定
\epsfysize=80mm % 縦方向の大きさの指定
\epsfbox{figure1.eps}
}
\par\end{figure}

以上から,これ以上標本文数を増加させても,その割に被覆率は向上しないとみられる. 前項で述べたように,むしろ,汎化方法について,さらに改良の方法を検討することが重要と判断される.



平成16年11月17日