next up previous contents
次へ: 文型パターン辞書と文型パターンパーサ 上へ: master-thesis-kkatayam 戻る: 表一覧   目次


はじめに

現在,日英機械翻訳のための22万件の重文・複文文型パターン辞書がある[1]. この文型パターン辞書は,15万件の日英対訳コーパスを元に作成されている. 言語の多様性に対応するために,文型パターン辞書にはさまざまな表現が収録されている. しかし,問題として,収録されている文型パターンには表現のカバー範囲が重複していることや 使用される可能性が低い表現を持つものが多く含まれていることが挙げられる.

また,人が利用する場合,紙媒体での辞書も必要な時がある. 現在出版されている結合価パターン辞書[2]は, 1.4万件の結合価パターンを収録するために830ページを用いている. 重文・複文文型パターンは結合価パターンよりも情報量が多いことも考慮すると, この文型パターン辞書を紙媒体に出力するためには,1.5万ページ以上が必要と考えられ,現実的では無い. そのため,規模を小さくした上で, よく使われる表現を中心に出来るだけ多様な表現を収録した文型パターン辞書が求められている.

古くから文型パターン翻訳方式のための文型パターン辞書の開発は行われているが, 文型パターン辞書の規模を小さくするという試みは行われていない. それは,文型パターン辞書の開発には膨大なコストがかかり, 文型パターン数が200〜300件程度にとどまっていたためである.

そこで,本研究では, 使用される可能性の低い文型パターンやカバー範囲が重複する文型パターンに着目し, 精度を低下させないことを目的として,自動的に文型パターン数の削減を行う.

本論文の構成は以下の通りである. 第 2 章では文型パターン辞書について説明する. 第 3 章では文型パターン辞書の削減方法と削減結果について説明する. 第 4 章では人手による翻訳調査について説明する. 第 5 章では考察を行い, 最後の 第6 章で本研究の結論と今後の課題を述べる.



平成19年3月1日