検索対象データベースには、 構文解析済みで係り受け関係が付与されている 京都大学テキストコーパスver2.0 (毎日新聞記事約2万文)を使用する。 なお、係り受け関係を構成するには最低2文節必要で あるため、文節数1の文は対象外とした。 また、入力文は京大コーパスの中から文節数(3〜30)ごとに 30文を選択し使用する。
京大コーパスの文の形態を以下に示す。
各文が文節ごとに分けられ、各形態素ごとに
表記・読み・原形(活用しない
語の場合は*)・品詞・品詞細分類・活用型・活用形
の情報が付与されている。
京大コーパスの書式
# S-ID:950101001-001 * 0 2D 彼 かれ * 名詞 普通名詞 * * は は * 助詞 副助詞 * * * 1 2D 東京 とうきょう * 名詞 固有名詞 * * に に * 助詞 格助詞 * * * 2 -1D 行った いった 行く 動詞 * 子音動詞カ行促音便形 基本形 EOS
本研究では、各形態素情報のうち、品詞・品詞細分類の情報をもとに 一致文節の分類を行う。 実験での一致文節の分類について次の節で述べる。