その対策であるが,「日本語語彙大系」の開発例と今回の被覆率調査から見て(1)「格要素の語順の自由指定や副詞の位置変更可能指定を行うなうこと」,(2)「時制,相,様相の汎化を行うこと」,また,(3)「字面表記の自立語,付属語の表記の揺らぎを徹底的にグループ化すること」が重要と考えられる.
そこでまず(1)について考えると,格要素の語順変更指定の効果は,単語レベルの文型パターンから句レベルの文型パターンに汎化した場合と同適度の被覆率向上が見込めそうで,適合文型パターンは何倍かに増加する可能性がある.
次に,(2)の効果であるが,現在使用されている時制,相,様相の情報を汎化した場合についての効果推定のための実験結果を見ると,単語レベルの「文型一致率」が,54%から最大98%に向上する可能性が示されている.実際に汎化できるのは線形要素に限られるが,それでも適合文型パターンはかなり大幅に増大することが予想される.
第3に(3)の効果であるが,実験的評価において,現在の文型パターンでは,「離散記号」を使用することにより,「文型一致率」は,単語レベルで4〜5倍,句レベルで1.5倍〜2倍に向上したことが示されている.また,「文型任意記号」も単語レベルでは,数十%の効果を持つことが示されている.これらから,より徹底した汎化を行えば,まだ相当の効果が得られるものと期待できる.