次へ: (3)文型パターン種別と被覆率特性の関係
上へ: 被覆率特性と飽和特性
戻る: b)文型パターンにカバーされない入力文要素
次に,「異なり文型パターン数」と「文型一致率」(×印)の関係を図1に示す.図中,文型パターン数2.5万件以下の部分(波線)は外挿したものである.また,参考のため,全体の文型パターンでの「文型再現率」(○印)の値も図示した.
これより,以下のことが分かる.
- (1)
- 単語レベル,句レベルのいずれの文型パターンも,「異なり文型パターン数」が数万件になると飽和傾向が現れる.
- (2)
- いずれの場合も「異なり文型パターン数」が1万件以下では,有効な被覆率は得られそうにない.
- (3)
- 「文型一致率」は,まだまだ向上の余地は残されているが,現在の文型パターン化の方法では,現状(10万件程度)の文型パターン数をこれ以上増加させても,被覆率の向上はあまり期待できそうにない.
図 1:
文型一致率(文字数で見た再現率)
|
以上から,これ以上標本文数を増加させても,その割に被覆率は向上しないとみられる.
前項で述べたように,むしろ,汎化方法について,さらに改良の方法を検討することが重要と判断される.
平成16年11月17日