next up previous
次へ: 文献目録 上へ: 日本語重文・複文を対象とした 文法レベル文型パターンの被覆率特性 戻る: 被覆率向上のための課題について

あとがき

日本語重文,複文に対する文法レベルの文型パターン辞書(単語レベル12.2万件,句レベル8.8万件,節レベル1.1万件)を対象に,被覆率特性(「文型再現率」,「文型一致率」,「適合文型意味正解率」,「適合文型正解含有率」の4種)を調べ,今後の課題と文型パターン方式の可能性について検討した.

その結果によれば,現状の文型パターンの「文型再現率$R1$」は,単語レベル,句レベル,節レベルの順に70%,89%,78%で,いずれもかなり高いこと,また,単語レベルの文型パターンが「完全一致」する割合(15%)は,句レベル(54%),節レベル(40%)に比べてかなり小さいことが分かった.「部分一致」した文型パターンを使用した翻訳処理より「完全一致」した文型パターンを使用した翻訳処理の方が容易であること,また,後者の文型パターンの方が意味的に正しい割合が大きいことから,機械翻訳では,単語レベルで完全一致する文型パターンがない場合は,句レベルや節レベルの文型パターンを使用するなど,各レベルの文型パターンを組み合わせて使用することが重要と考えられる.

また,適合文型パターンに対する意味的な正解率の評価では,単語レベル文型パターンの場合,適合文型パターンの中に意味的に正しいものが含まれている確率が,20%弱にとどまっており,入力文は多数の意味的に適合しない文型パターンと適合してしまうことが分かった.これは,文法レベルの情報で記述された文型パターンの限界を示しているものと見られる.

そこで,今後は,○ 1意味的に適切な入力文には,なるべく漏らさず適合するよう文型パターンを汎化すること,また,その際,○ 2可能な限り意味的に正しいもののみが掬い取れるような仕組みを考えることの2点を目標に,意味レベル文型パターン辞書を開発する計画であるが,このうち,○ 1の課題としては,格要素の語順の自由指定や副詞の位置変更可能指定を行うなうこと,時制,相,様相の汎化を進めること,また,字面表記の自立語,付属語の表記の揺らぎを徹底的にグループ化すること等が挙げられる.今回の実験結果から,特に時制,相,様相の汎化の効果が大きいと予想され,これらによって意味的に適切な文型パターンの割合は数倍程度以上に向上することが期待される.また,○ 2では,文型パターン内の変数の変域に対して意味的制約条件を付けることが必要と考えられるが,現在の多義の発生程度から考えると,その意味的分解能としては1,000種類の分類があれば良さそうである.

以上,本研究では,文型パターン辞書開発上の様々な問題についての指針が得られたので,今後は,これらの指針に基づき,意味レベルの文型パターン辞書の開発に取り組んでいきたい.


この研究は,科学技術振興機構(JST)の戦略的創造研究推進事業(CREST)で行っているものである.技術会議等を通じてご議論を頂いた宮崎正弘先生(新潟大),佐良木昌先生(長崎純心大),池田尚志先生(岐阜大),新田義彦先生(日本大),山本和英先生(長岡技科大),横尾昭男様(NTT-AT社)に感謝する.また,文型パターン化作業を担当して頂いたNTTアドバンステクノロジ株式会社の皆様に感謝する.



平成16年11月17日