検索対象データベース

Next: 一致文節の分類 Up: 類似文検索における係り受けの効果 Previous: 類似文検索システム

検索対象データベース

検索対象データベースには、構文解析済みで係り受け関係が付与されている京都大学テキストコーパスver2.0 (毎日新聞記事約2万文)を使用する。なお、係り受け関係を構成するには最低2文節必要であるため、文節数1の文は対象外とした。また、入力文は京大コーパスの中から文節数(3～30)ごとに 30文を選択し使用する。

京大コーパスの文の形態を以下に示す。各文が文節ごとに分けられ、各形態素ごとに表記・読み・原形(活用しない語の場合は*)・品詞・品詞細分類・活用型・活用形の情報が付与されている。

京大コーパスの書式

    # S-ID:950101001-001
    * 0 2D
    彼 かれ * 名詞 普通名詞 * *
    は は * 助詞 副助詞 * *
    * 1 2D
    東京 とうきょう * 名詞 固有名詞 * *
    に に * 助詞 格助詞 * *
    * 2 -1D
    行った いった 行く 動詞 * 子音動詞カ行促音便形 基本形
    EOS

本研究では、各形態素情報のうち、品詞・品詞細分類の情報をもとに一致文節の分類を行う。実験での一致文節の分類について次の節で述べる。

2002-03-06