検索実験の考察

Next: パターン抽出への応用 Up: 類似文検索における係り受けの効果 Previous: 検索実験

検索実験の考察

1.

一致文節の扱い

実験では文節の種類を3,878種に分類したが、特定の表現を区別したい、より大きな範囲で係り受けの一致をとりたいというような場合も存在する。検索する際の用途に応じて、文節の分類を行えるような変換テーブルの作成などを考えていく必要がある。

2.

最大一致ペア数

入力文の文節数が多くなっても最大一致ペア数はあまり大きくならないといった傾向がみられた。文節数が多い文は部分的な係り受けパターンしか一致せず、不一致文節が多く含まれると考えられる。

そこで、文節数が多く係り受けが多くなるものについては、最も一致ペア数が多い文を決定するだけでなく、ペアとして一致していなかった部分の係り受けを補う形で他の候補も選択していく方法が考えられる(図16)。

**Figure 16:** 不一致文節を補う形での出力
$\includegraphics[width=14cm,keepaspectratio]{comb.eps}$

最も一致した文と不一致文節を補った文とを組み合わせて入力文の翻訳例として利用するという方法だが、実際の翻訳においてはそれほど単純ではないと思われる。今後、英訳文との対応関係を考慮した実験を行う際に検討していくこととする。

3.

係り受けによる削減効果

文節数が多い入力文においては、一致文節を含む候補(抽出数)が1万文以上となった。しかし、抽出された候補に対して係り受け関係の一致を考慮することで、候補文の90%以上を削減し類似文を決定することができた。係り受け関係の制約を用いることで、構造的に一致していない不要な表現を大幅に削減することが可能である。

4.

得られた類似文

検索の結果、入力文と同一の係り受け関係だけでなく、部分的に一致するような類似文を検索できた。また、「～を抑えてトップに立つ/なる」(図14)のような、係り受け関係の一致した文が得られた。本手法により、翻訳に利用できるような用例を収集することが可能である。「～に及ぶとみられる」(図13)のような連続する文節が係り受けで結ばれた表現(連鎖型)だけでなく、離れた文節間で係り受けを構成するような表現(離散型)も抽出することができた。

以上の実験より、係り受け関係は候補の絞り込みに効果があるといえる。また、入力文と同一の係り受け関係だけでなく、部分的に一致を含む文も対象とするため、用例の収集も行えることがわかった。

2002-03-06