言語表現の構造と意味の関係に関する線形性と非線形性の定義に基づき,日英対訳例文から,非線形な表現構造を取り出して文型パターン化する方法を提案し,そのための具体的な作業手順を示した.また,その方法を重文,複文15万件の日英対訳例文に適用し,単語レベル,句レベル,節レベルの3種類の文型パターンをそれぞれ12.8万件,10.5万件,1.3万件(合計24.6万件,異なり221.1万件)を試作した.
単語レベルと句レベルの文型パターンでは,標本とした対訳文に含まれる自立語(平均6語)のうち3〜4語が線形要素として変数化されたこと,また,関数化される付属語が1件弱あったことから,文型当たりの線形要素は平均4〜5カ所存在することなどが分かった.節レベルの文型パターンでは,変数化された節は4〜5%に過ぎず,大半の節は非線形要素であった.
これらのことから,重文,複文の構造は,殆どが非線形で,節に分解して翻訳する要素合成法は適さないが,単語や句のレベルで見るとかなり多くの線形要素を含んでいることが分かる.
また,人手による文型パターンの作成では,膨大な作業量が予想されたが,作業基準の明確化と各種のプログラムツールの準備などにより,作業の大半を自動化することができた.人手作業に頼る場合に比べて作業量は約1/10に削減したと推定され,作業品質の均一化も達成することができた.
従来,汎用的で大規模な文型パターン辞書の開発は困難と考えられ,対象分野を限定した用例翻訳などが試みられてきたが,上記のように標本文には多くの線形要素が存在すること,文型パターン化作業の大半が機械化できることから見て,汎用的な文型パターン辞書開発の展望が得られた.
ところで,今回作成した文型パターンは,文法情報で記述されている.試行的な実験によれば,再現率はかなり高い値が得られる見込みであるものの,意味的な適合率はまだまだ低い値だと予想される.意味的な適合率を向上させるには,各種変数に対する意味的な制約条件の付与が必須と見られる.今回の試作によって多くの文型パターンを得ることができ,種々の実験的検討が可能となった.今後は,(1)より高度な汎化手法とその効果の推定,(2)意味的制約条件付与の粒度とその効果の推定などについての実験的検討を進め,被覆率と意味的排他性ともに優れた文型パターンを目指して改良を行っていく予定である.