next up previous contents
次へ: 文型パターン辞書と包含関係 上へ: gt 戻る: 表一覧   目次

はじめに

近年,日英機械翻訳の方式の1つとして,パターン翻訳方式が注目されている. 従来までは翻訳に用いられるパターン数が少なかった為に, 特定の狭い分野の翻訳に使われることが多かった. しかし,参考文献[1]で提案された方法により, 24万件の大規模文型パターン辞書が構築されている. この文型パターン辞書は,15万件の日英対訳コーパスを元に作成されている. ところが,この文型パターン辞書は規模が大きい為,実際に翻訳を行う場合に検索コストかかる等の問題がある. そのため,パターン数の削減が必要とされているが,人手によるパターン数の削減は規模を困難である.

そこで,本研究では日本語文型パターン間の包含関係に着目して,その数を半自動的に削減する方法を提案する. また,その方法を用いて文型パターン辞書の縮退を試みる.

提案した方法により,パターン間の包含関係を判定した結果,包含関係を持つパターンは12,981パターン(10.6%)あった. そのうち,削除したパターンは9,852パターン(8.0%)であった.

本論文の構成は以下の通りである. 第2章では,文型パターン辞書と包含関係について説明する. 第3章では,削減方法を順を追って説明する. 第4章では,包含関係による削減の実験について説明する. 第5章では,包含関係のよる削減の実験結果と具体例を示す. 第6章では,削減結果についての考察を説明する. 第7章では結論と今後の課題を述べる.



Keichiro Katayama 平成17年5月20日