次へ: 目次
目次
概 要
日英機械翻訳のための22万件の重文・複文文型パターン辞書が作成されている[1].
この文型パターン辞書は,様々なドキュメントから収集した15万件の日英対訳コーパスを元に作成されている.
言語の多様性に対応するために,文型パターン辞書にはさまざまな表現が収録されているが,
問題として,収録されている文型パターンには表現のカバー範囲が重複していることや
使用される可能性が低い表現を持つものが多く含まれていることが挙げられる.
また,人が文型パターンを用いる場合は,紙媒体での辞書も必要になると考えられるが,
22万件の重文・複文文型パターンを紙媒体で利用することは現実的ではない.
そのため,規模を小さくした上で,
よく使われる表現を中心に出来るだけ多様な表現を収録した文型パターン辞書が求められている.
そこで,本研究では,
使用される可能性の低い文型パターンやカバー範囲が重複する文型パターンに着目して,
精度を低下させずに自動的に文型パターン数の削減を行った.
精度を維持するために,文型パターンの適合頻度,包含関係および評価用試験文集での照合結果を利用した.
さらに,過剰に汎化された日本語文型パターンの削除も行った.
結果,精度を維持しつつ,元の文型パターン辞書の14.65%(17,973件)に縮退することが出来た.
また,縮退後の文型パターン辞書を用いて,人手による翻訳調査を行った.
その結果,日本語文型パターンの包含関係を用いると,正解率が大きく低下するが,
意味的な被覆率から見ると影響は小さいと考えられる.
さらに,過剰に汎化された日本語文型パターンを削除することで,正解率の向上が見込める.
平成19年3月1日