next up previous
次へ: a)各レベルの文型パターンの汎用度 上へ: 被覆率特性と飽和特性 戻る: 被覆率特性と飽和特性

(1)文型パターンの被覆率

前述の1万件の日本語入力文に対して単語レベル,句レベル,節レベルの文型パターンの「文型再現率$R1$」,「文型一致率$R2$」を求めた.その結果を表5に示す.


1.5
表 5: 文型パターンの被覆率
レベル 文型再現率$R1$ 文型一致率$R2$
単語レベル 69.8 % 47.2 %
句レベル 89.0 % 76.2 %
節レベル 78.1 % 63.1 %
混合レベル 91.8 % 78.9 %

5で「混合レベル」は,単語レベル,句レベル,節レベルの文型パターン全体(異なり22.1万件)に対する照合実験の結果を示す.この表から以下のことが分かる.

(1)
単語レベル,句レベルの「文型再現率$R1$」は,約70%,89%で高い値を示す.
(2)
これに比べて最も汎化されたはずの節レベルの「文型再現率$R1$」78%は比較的小さい.
(3)
また,「文型一致率$R2$」は,それらより13〜23%低下する.
(4)
「混合レベル」の「文型再現率$R1$」,「文型一致率$R2$」は,いずれも句レベルの場合より2〜3%向上しただけである.

以上,文数から見て,入力文の7割が単語レベルの文型パターンに適合し,9割が句レベルの文型パターンに適合するのに対して,もっとも汎化されている節レベルの文型パターンの被覆率はその割に低い.節レベルの文型パターンは,被覆率の向上を狙って作成されたものであるが,実際の対訳例文において節レベルまで汎化できるものが少なかったため,結果的に句レベルよりも小さい被覆率しか得られなかったものと考えられる.

また,混合レベルの被覆率が句レベルに比べて余り向上していないが,これは,単語レベルで適合する文の大半が句レベルでも適合すること,また,句レベルの文型パターンに比べて節レベルの文型パターンの数が少なく,句レベルの文型パターン以上に広い範囲をカバーできていないことを意味する.なお,混合レベルでの被覆率が90%を超えていることから,文型パターン数と被覆率の関係はほぼ飽和状態に達しており,これ以上標本量を増やしても被覆率は簡単には向上しないのではないかと思われる.

以下,文型パターンの汎用度と文型パターンに定義されない要素について考察する.



Subsections

平成16年11月17日