前節の定義に従って対訳コーパス中の例文に含まれる線形要素を抽出し,それを汎化することにより,日英文型パターン対を作成する.以下,日英対訳文から日英対訳文型パターンを作成するための原則について述べる.
現実に得られる対訳例文の品質は様々である.対応する英訳文の意味が単独で日本語文の意味に対応するものをパターン化の対象とし,前後の文脈から意訳されているなど,与えられた日本文だけでは対応関係を持たないような対訳用例は文型パターン化の対象としない.
但し,文型パターン化の目的が非線形な言語表現の意味を正しく翻訳することにあることから,意訳された対訳例を文型パターン化することは極めて重要である.そのような例文では,無理な汎化はせず対訳原文をそのまま文型パターンとしても良い.
本稿では文型パターン記述用の言語として,文献(池原,宮崎,佐良木,池田,白井,村上,徳久 2003;池原,村本,徳久,村上,宮崎,佐良木 2004)で提案された「文型パターン記述言語」を使用するが,文法レベルの情報を使用して文型パターンを記述することとし,変数の変域に対する意味的な制約条件は付与しない.また,語順の変更や文型要素の移動可能指定の機能も使用しない.
これは,現段階では意味的制約条件付与の必要性と必要な意味の粒度などが不明なためである.意味レベルでの文型パターン記述の必要性とその方法などについては,文法レベルで記述された文型パターンの被覆率特性が明らかになった段階で検討する.
対訳例文の要素を以下で示すような「必須要素」と「任意要素」に分類する.
なお,「必須要素」と「任意要素」は,いずれも字面でも良いし後で述べるような変数や関数を含む表現でも良い.
変数化する対象は,単語(自立語,複合語を含む),句,節の3種類の表現でいずれも線形な文要素である.これに応じて英語表現中の対応する文要素も変数化する.
今回の文型パターン試作の狙いは,(i)総合的に被覆率の高い文型パターンが得られるか,(ii)文型パターン相互間の意味的独立性が確保できるかの2点についての指針を得ることである.相反するこれら2つの目標を調和的に実現するため,対訳例文を段階的に汎化することによって文型パターンを作成することとし,変数化された文要素の単位に応じて,文型パターンを「単語レベル」,「句レベル」,「節レベル」の3種類のグループに分類する.以下,変数化の基本原則を示す.
まず,変数化の対象となる文要素であるが,変数化する文要素はいずれも別途翻訳して英語文型パターンに埋め込めるもので,それ自身が線形である必要はない.変数化判定の原則は以下の通りである.
日本語と英語で変数化される要素は必ずしも文法的に同じ属性である必要はなく,品詞や活用形が異なっていても良い.日英の対応する部分の品詞が異なる場合は,品詞変換の関数を使用して変数化する.
英語側に対応する訳語を持たない要素は,前項の分類によって「原文任意要素」か「パターン任意要素」かのいずれかと判定する.
逆に,英文中に日本文に対応づけられないような要素については,日英対訳文の意味的な関係を調べ,文脈なしにその対訳関係が成り立つなら,英語パターンの要素として残し,そうでない場合は削除する.
次に,変数化する要素の範囲であるが,入力文と日本語文型パターンとの照合時の結果,変数にバインド(代入)され,英語文型パターンに持ち運ばれる範囲である.問題となるのは用言性の文要素であるが,汎用性の高い文型パターンとするため,用言の変数化においては,「語幹+活用形」の範囲を変数化し,時制,相,様相の情報を表す自動詞などについては,別途定められた関数を使用して記述する.従って,通常,文型パターンでは用言の活用形は指定されないが,指定の必要な場合は,活用形指定関数を使用する.
また,日英文型パターン間での変数の対応関係を明確にするため,まず,日本語文型パターン内で使用する変数には通し番号を付与する.これに伴い,英語文型パターン内の変数には,日本語文型パターン内の意味的に対応する変数と同じ番号を付与する.日本語文型パターンで使用された変数のすべてが英語文型パターンで使用されている必要はない.なお,同一の文型要素の変数化では,同一の変数番号を使用するものとする.
付属語(辞と辞相当語)要素のうち線形なものは,各種の関数および選択記号によって汎化するが,入力文と文型パターンとの照合の段階で意味的な曖昧性の発生しない方法(主として字面指定の関数または選択記号)で記述する.