next up previous contents
次へ: 目次 上へ: gt 戻る: gt   目次

概要

近年,日英機械翻訳方式として,パターン翻訳方式が注目されている. そして,現在,24万件の文型パターン辞書が構築されている. ところが,規模が大きい為,パターン数を削減する方法が必要とされているが, 人手によりパターン数を削減する事は困難である.

本研究では,パターン間の包含関係に着目して, 文型パターン辞書のパターン数を自動的に削減する方法を提案した. また,実際にパターン数の削減を行った. 提案した方法により,パターン間の包含関係を判定した結果,包含関係を持つパターンは12,981パターン(10.6%)あった. そのうち,削除したパターンは9,852パターン(8.0%)であった. しかし,削除が行えないパターンの多くが,適合頻度(適合した原文の数)が少ないものであった.

今後,パターン数の削減を試みる場合は,包含関係だけでなく類似度の高いパターンにも着目し, 新たなパターンを作成するなどしてパターン数の削減を試みる方法があると考えられる. また,包含関係を持たないパターンについて削減の必要性を検討する必要があることも分かった.



Keichiro Katayama 平成17年5月20日