規模の異なるパターン辞書の汎化による推定法

次へ: おわりに 上へ: 考察 戻る: パターン辞書を汎化しない推定法目次

規模の異なるパターン辞書の汎化による推定法

大規模な被覆率調査を行うと大量の作業コストがかかる．そこで，規模の異なる被覆率調査行い，あらかじめ汎化の効果を予測する推定法を検討する．大規模な被覆率調査で求めた ${\eta }$ と，規模の異なる被覆率調査で求めた ${\eta }$ を比較し，規模の異なる被覆率調査でも，大規模な被覆率調査を行ったときと同等の汎化の効果を予測できるか確認する．

本稿では，規模の異なる自由時制パターン辞書を対象パターン辞書とし，規模の異なるパターン辞書ごとに ${\eta }$ を算出し，自由時制パターン辞書の全パターン数の ${\eta }$ と比較を行う．それぞれの ${\eta }$ の値を表8にまとめる．

**表 8:** 規模の異なる自由時制パターン辞書の ${\eta }$
			規模の異なるパターン数の
小規模パターン数		${\eta}_{R1}$	${\eta}_{N}$	${\eta}_{d}$
		100	0.01	0.15	2.72
		500	0.13	0.15	2.82
	1	,000	4.07	1.12	2.64
	5	,000	1.64	1.30	2.63
	10	,000	1.83	1.40	2.70
	20	,000	2.05	1.34	2.67
	40	,000	1.72	1.47	2.69
	80	,000	1.69	1.39	2.67
			全パターン数の
全パターン数		${\eta}_{R1}$	${\eta}_{N}$	${\eta}_{d}$
	122	,619	1.53	1.36	2.65

その結果，80,000パターンの ${\eta }$ が全パターン数の ${\eta }$ に最も近い値となった．ただし，小数点第1位の誤差を許せば，40,000パターンでも汎化の効果が予測できると考えられる．100から20,000パターンでは，データが大幅に変動するので，値に信頼性が持てない． ${\eta}_{d}$ はパターン数が変動しても値が安定しているが， 5.2で述べたように，時制の汎化に関しては汎化の効果は予測ができない．

これより，規模の異なる被覆率調査で求めた実測値 ${\eta }$ も汎化の効果の予測ができる可能性があることがわかった．今後様々に考えられる汎化の方法の中で，効果の見込まれる汎化の方法の選別に有効である．

次へ: おわりに 上へ: 考察 戻る: パターン辞書を汎化しない推定法目次

平成17年3月22日