next up previous
次へ: あとがき 上へ: 重文と複文の文型パターン化 戻る: 変数・関数の使用頻度

汎化による文型パターンの同一化

(1)
同一化する文型パターンの割合

 文型パターン数と被覆率の関係を考えると,標本量が増大するにつれて,同一化するパターンの増大することが期待される.しかし,実際に12.9万件の標本文で得られた文型パターンで同一化したものは,単語レベル,句レベルでそれぞれ約5%,約16%でかなり少ない.

 これは,機械翻訳において,入力文のすべての要素が解釈できるような文型パターンを網羅的に準備することは困難であることを意味するが,機械翻訳で使用される文型パターンは必ずしも入力文の全要素を含むものである必要性はない.すなわち,機械翻訳文で使用可能な文型パターンは,その要素のすべてを含む入力文でなければならないが,逆に,入力文から見れば,すべての要素が文型パターンの要素に一致している必要はない.

 従って,開発すべき文型パターン辞書の必要規模を推定するには,部分的な適合条件を考慮した被覆率評価試験により,文型パターン数と被覆率の関係を調べる必要がある[*]

(2)
文要素の任意化の効果

 文型パターン化では,各種の変数と関数のほか任意化などのための記号類が使用される.このうち,任意化の機能によって縮退する文型パターン数を調べた.その結果によれば,前者では,「パターン要素任意化」によって文型パターンが縮退する割合は0.2%にとどまった[*]



平成16年8月30日