近年, 機械翻訳の方式として等価的類推思考の原理に基づく機械翻訳方式が提案 されている. この方式の実現に向けて, 日本語の重文・複文を対象とした文 型パターンを大量に蓄積した文型パターン辞書の構築が進められている. 文 型パターンは, 言語表現を, 字面・変数・関数・記号で記述したものであり, パ ターンマッチングにより入力文を解析する. 現在, 文型パターン辞書には単語レ ベル・句レベル・節レベルが存在する. この単語レベル文型パターンの問題点の 一つに, 入力文に対し約48%しか文型パターンが出力されておらず, 現状では適 合率が低いことがあげられる. また, 現在の単語レベル文型パターン辞書には, 入力文に対する適合率を向上さ せる手段として, 表記のゆらぎを吸収するために, 選択記号が記述されている.
そこで, 本研究では単語レベル文型パターンにおける選択記号の効果を「文型パ ターン拡大率」, および「適合率」を用いて, 定量的に評価し, 改良の 可能性を検討した. また, 現在の単語レベル文型パターン辞書は, 選択記号にな るべき箇所が記号になっていなかったり,表現要素の表記が不足している. そこ で, それらの箇所に対し,既存の選択記号で最も表現要素数が多い選択記号によ る均一化,および既存の選択記号から新たに作成した選択記号による均一化を行 うことで選択記号を増加したときの文型パターン拡大率と適合率も同様に評価し た.
調査の結果, 現在の単語レベル文型パターン辞書に付与されている選択記号は, 適合率を約2%向上させていることが分かった. さらなる適合率の向上を狙い, 既存の選択記号のさらなる付与を行ったが, 適合率はそれほど向上しなかった.
これにより, 現在の付与されている選択記号に関しては表現のゆらぎを吸収する に十分な効果があることが示された. しかし, 単語レベ ル文型パターン中に選択記号となるべき箇所が残っていることも示された.