next up previous contents
Next: 検索実験 Up: 類似文検索における係り受けの効果 Previous: 検索対象データベース

一致文節の分類

実験では、「品詞の並びが同一の文節」を一致文節とする。 文節の分類を詳細に行うと、一致する文節が少なくなる。 一致文節が少ない状態で係り受けの一致をとると、 部分的にしか一致がとれない場合が多くなってしまう。 実験では、係り受けによる 候補の削減効果や、より多く一致を含む文を 検索するという本手法の有用性を確認することが 目的であるため、あまり詳細に文節の分類を行わない方がよい。

そこで、表1に示すような品詞分類を行う。 京大コーパスに与えられている品詞・品詞細分類の 情報をもとに分類を行い、助詞については 格助詞14種、副助詞25種、接続助詞39種、 終助詞16種の合計94種を字面で細分類する。 また、副詞は出現頻度の多い248種について 字面で分類を行う。 複合名詞は一つの名詞として扱い、他の品詞(形容詞など)はそのまま コーパスの品詞情報を利用した。

一致文節となる例を表2に示す。 表より、文節「一つは」と「車は」はともに 「名詞+は(副助詞)」という品詞ならびであるため 一致文節となる。他の文節も同様である。


 
Table 1: 品詞分類
品詞の種類 354
文節の種類 3,878
最多出現文節 名詞+の(接続助詞)


 
Table 2: 一致文節の例
文節 品詞ならび
一つは,車は 名詞+は(副助詞)
安全性の,元凶の 名詞+の(接続助詞)
問題だ,一つである 名詞+判定詞




2002-03-06