機械翻訳の分野では、翻訳精度を向上させるため、用例を利用する 方法が提案されている。用例翻訳に利用される用例検索システムは、 翻訳する文に対して最も表現の類似した文とその対訳を データベースから高速に検索することが求められる。
用例検索において従来提案されている手法に、 キーワード検索がある。しかしこの方法では 文全体がキーワードに置き換えられるため文の一致が 保証されず、多くの不適切な用例を検索してしまう という問題が生じる。
これに対し本研究では、文節間の係り受け 関係を利用した類似文検索アルゴリズムを提案する。 係り受けの一致をとることで、 キーワード単位では検索されるような 多くの不適切な用例を絞り込むことができる。 本研究では、 入力文と一致する係り受け関係を最も多く 含む文を検索の対象とする。 より多く一致を含む文を抽出するため、 入力文と全て一致する文 だけでなく、部分的に一致するような 類似文も抽出することができる。 また、係り受けの制約を用いることで、 係り受け関係の一致する 特定のパターンを抽出することができるので、 言語データのパターン抽出への 応用も期待できる。
本論文では、(1)係り受けを用いた類似文検索アルゴリズムの 提案、(2)係り受けの効果を調べる検索実験、 (3)新聞記事のパターン抽出への応用の3つについて述べる。
(2)において、係り受け関係を考慮することで、 抽出された候補文を大幅に削減して 類似文を検索することができた。 また(3)では、N-gram統計と同様に 表現のパターンを抽出でき、連鎖型表現 だけでなく他の文節を越えて係るような 離散型表現も抽出できた。