Next: Contents Up: No Title Previous: No Title

概要

機械翻訳の分野では、翻訳精度を向上させるため、用例を利用する方法が提案されている。用例翻訳に利用される用例検索システムは、翻訳する文に対して最も表現の類似した文とその対訳をデータベースから高速に検索することが求められる。

用例検索において従来提案されている手法に、キーワード検索がある。しかしこの方法では文全体がキーワードに置き換えられるため文の一致が保証されず、多くの不適切な用例を検索してしまうという問題が生じる。

これに対し本研究では、文節間の係り受け関係を利用した類似文検索アルゴリズムを提案する。係り受けの一致をとることで、キーワード単位では検索されるような多くの不適切な用例を絞り込むことができる。本研究では、入力文と一致する係り受け関係を最も多く含む文を検索の対象とする。より多く一致を含む文を抽出するため、入力文と全て一致する文だけでなく、部分的に一致するような類似文も抽出することができる。また、係り受けの制約を用いることで、係り受け関係の一致する特定のパターンを抽出することができるので、言語データのパターン抽出への応用も期待できる。

本論文では、(1)係り受けを用いた類似文検索アルゴリズムの提案、(2)係り受けの効果を調べる検索実験、 (3)新聞記事のパターン抽出への応用の3つについて述べる。

(2)において、係り受け関係を考慮することで、抽出された候補文を大幅に削減して類似文を検索することができた。また(3)では、N-gram統計と同様に表現のパターンを抽出でき、連鎖型表現だけでなく他の文節を越えて係るような離散型表現も抽出できた。

2002-03-06