next up previous contents
Next: 一致文節の分類 Up: 類似文検索における係り受けの効果 Previous: 類似文検索システム

検索対象データベース

検索対象データベースには、 構文解析済みで係り受け関係が付与されている 京都大学テキストコーパスver2.0 (毎日新聞記事約2万文)を使用する。 なお、係り受け関係を構成するには最低2文節必要で あるため、文節数1の文は対象外とした。 また、入力文は京大コーパスの中から文節数(3〜30)ごとに 30文を選択し使用する。

京大コーパスの文の形態を以下に示す。 各文が文節ごとに分けられ、各形態素ごとに 表記・読み・原形(活用しない 語の場合は*)・品詞・品詞細分類・活用型・活用形 の情報が付与されている。

京大コーパスの書式

    # S-ID:950101001-001
    * 0 2D
    彼 かれ * 名詞 普通名詞 * *
    は は * 助詞 副助詞 * *
    * 1 2D
    東京 とうきょう * 名詞 固有名詞 * *
    に に * 助詞 格助詞 * *
    * 2 -1D
    行った いった 行く 動詞 * 子音動詞カ行促音便形 基本形
    EOS

本研究では、各形態素情報のうち、品詞・品詞細分類の情報をもとに 一致文節の分類を行う。 実験での一致文節の分類について次の節で述べる。




2002-03-06