next up previous contents
次へ: おわりに 上へ: 考察 戻る: パターン辞書を汎化しない推定法   目次

規模の異なるパターン辞書の汎化による推定法

大規模な被覆率調査を行うと大量の作業コストがかかる.そこで,規模の異なる被覆率調査 行い,あらかじめ汎化の効果を予測する推定法を検討する. 大規模な被覆率調査で求めた${\eta }$と,規模の異なる被覆率調 査で求めた${\eta }$を比較し,規模の異なる被覆率調査でも,大規模な被覆 率調査を行ったときと同等の汎化の効果を予測できるか確認する.

本稿では,規模の異なる自由時制パターン辞書を対象パターン辞書とし,規模の 異なるパターン辞書ごとに${\eta }$を算出し,自由時制パターン辞書 の全パターン数の${\eta }$と比較を行う. それぞれの${\eta }$の値を表8にまとめる.


表 8: 規模の異なる自由時制パターン辞書の${\eta }$
  規模の異なるパターン数の
小規模パターン数 ${\eta}_{R1}$ ${\eta}_{N}$ ${\eta}_{d}$
  100 0.01 0.15 2.72
  500 0.13 0.15 2.82
1   ,000 4.07 1.12 2.64
5   ,000 1.64 1.30 2.63
10   ,000 1.83 1.40 2.70
20   ,000 2.05 1.34 2.67
40   ,000 1.72 1.47 2.69
80   ,000 1.69 1.39 2.67
  全パターン数の
全パターン数 ${\eta}_{R1}$ ${\eta}_{N}$ ${\eta}_{d}$
122   ,619 1.53 1.36 2.65

その結果,80,000パターンの${\eta }$が 全パターン数の${\eta }$に最も近い値となった. ただし,小数点第1位の誤差を許せば,40,000パターンでも汎化の効果が予測でき ると考えられる.100から20,000パターンでは,データが大幅に変動するので,値に 信頼性が持てない.${\eta}_{d}$はパターン数が変動しても値が安定しているが, 5.2で述べたように,時制の汎化に関しては汎化の効果は予測ができない.

これより,規模の異なる被覆率調査で求めた実測値${\eta }$も汎化の効果の予測 ができる可能性があることがわかった.今後様々に考えられる汎化の方法の中で,効果の見込まれる汎化の方法の選別に有効である.


next up previous contents
次へ: おわりに 上へ: 考察 戻る: パターン辞書を汎化しない推定法   目次
平成17年3月22日