next up previous contents
Next: パターン抽出への応用 Up: 類似文検索における係り受けの効果 Previous: 検索実験

検索実験の考察

1.
一致文節の扱い

実験では文節の種類を3,878種に分類したが、 特定の表現を区別したい、より大きな範囲で 係り受けの一致をとりたいというような 場合も存在する。 検索する際の用途に応じて、文節の分類を 行えるような変換テーブルの作成などを 考えていく必要がある。

2.
最大一致ペア数

入力文の文節数が多くなっても最大一致ペア数は あまり大きくならないといった傾向がみられた。 文節数が多い文は部分的な係り受けパターンしか一致せず、 不一致文節が多く含まれると考えられる。

そこで、文節数が多く係り受けが多くなるものについては、 最も一致ペア数が多い文を決定するだけでなく、 ペアとして一致していなかった部分の係り受けを補う形で 他の候補も選択していく方法が考えられる(図16)。


  
Figure 16: 不一致文節を補う形での出力
\includegraphics[width=14cm,keepaspectratio]{comb.eps}

最も一致した文と不一致文節を補った文とを 組み合わせて入力文の翻訳例として利用するという 方法だが、実際の翻訳においてはそれほど単純ではないと 思われる。今後、英訳文との対応関係を考慮した実験を 行う際に検討していくこととする。

3.
係り受けによる削減効果

文節数が多い入力文においては、 一致文節を含む候補(抽出数)が1万文以上となった。 しかし、抽出された候補に対して係り受け関係の一致を 考慮することで、候補文の90%以上を削減し類似文を決定する ことができた。係り受け関係の制約を用いることで、 構造的に一致していない不要な表現を大幅に 削減することが可能である。

4.
得られた類似文

検索の結果、入力文と同一の係り受け関係だけでなく、 部分的に一致するような類似文を検索できた。 また、「〜を抑えてトップに立つ/なる」(図14)の ような、係り受け関係の一致した文が得られた。 本手法により、翻訳に利用できるような 用例を収集することが可能である。 「〜に及ぶとみられる」(図13)のような 連続する文節が係り受け で結ばれた表現(連鎖型)だけでなく、 離れた文節間で係り受けを構成するような表現(離散型)も 抽出することができた。

以上の実験より、係り受け関係は候補の絞り込みに効果があるといえる。 また、入力文と同一の係り受け関係だけでなく、 部分的に一致を含む文も対象とするため、 用例の収集も行えることがわかった。




2002-03-06