next up previous
次へ: はじめに

199556 199578 1995910

非線形な表現構造に着目した重文と複文の日英文型パターン化

池原 悟FETU

阿部 さつきNTTAT

徳久 雅人FETU

村上 仁一FETU

池原,阿部,徳久,村上

FETU鳥取大学工学部  Faculty of Engineering, Tottori University

NTTATNTTアドバンステクノロジ株式会社  NTT Advanced Technology Corp.,

概要:

あらまし 要素合成法を基本とした従来の機械翻訳方式の限界を突破する方法として,非線形な言語表現の構造を意味のまとまる単位にパターン化した文型パターン翻訳方式が期待される.本論文では,重文と複文を対象に,この方式の実現に必要な文型パターン辞書を試作した.具体的には,100万件の日英対訳コーパスから2つ又は3つの述部を持つ重文と複文合計15万件を抽出し,単語レベル(12.8万件),句レベル(10.5万件),節レベル(1.3万件)の3種類のグループからなる文型パターン辞書(合計24.6万件,異なり22.1万件収録)を作成した.各文型パターンは,いずれも形態素解析によって得られる文法情報を用いて記述することとし,対訳標本文に含まれる線形な表現要素を半自動的に変数化,関数化することなどにより作成したものである.従来,大規模な文型パターン辞書の開発は,文型パターン間の意味的排他性実現の困難性と膨大な開発コストが問題となるため,適用対象を限定するなど小規模な実現例しか見られなかった.しかし,今回の試作によって,ほぼすべての標本文(99%)が多くの線形要素(平均4〜5カ所)を持つことが分かった.また,それらの要素を半自動的に関数化,変数化を行うことにより,文型パターンの開発コストは人手に頼る方法の約1/10に削減できた.これにより,実験的検討に必要な規模の文型パターン辞書を構築することができた.

機械翻訳,文型パターン,言語知識ベース,要素合成法,非線形要素,汎化

Japanese to English Sentence Pattern Generations
for Semantically Non-Linear Complex Sentences Satoru IkeharaFETU and Satsuki AbeNTTAT and Masato TokuhisaFETU and Jin'ichi MurakamiFETU


Abstract : In order to breakthrough the limitation of the conventional
method based on Compositional Semantics, it is expected to realize a new
translation method based on Sentence Patterns in which non-linear
structures of linguistic expressions are represented as semantic
units. This paper proposes the way to judge the linearity or
non-linearity of linguistic expressions based on their definitions and
how to generate sentence patterns from huge bilingual corpora. According
to this method, three kinds of sentence patterns such as "word level",
"phrase level" and "clause level" are generated in this order from
Japanese to English corpus. In the experiments, 150,000 sentence pairs
for complex and compound sentences are extracted from one million
sentence pair corpora, and 128,000 patterns, 105,000 patterns and 13,000
patterns for each of three revels were generated from these sentence
pairs. Due to the clarifications of decision process, the generation
processes of the sentence patterns were mostly automated by using the
results of morphological analysis and these 246,000 sentence patterns
have been obtained in a year.

Machine Translation, Sentence Pattern, Linguistic Knowledgbase, Compositional Semantics, Nonlinear Expression, Generalization





平成16年8月30日