重文・複文のコーパスには,2つの節で構成される文と,3つの節で構成される文 がある.本稿では前者を対象に用例を抽出する.そのため,98,999文が抽出可能 な文となる.
用例の抽出からDB化までの手順を以下に,またその流れを図に示す.
上記の手順により,図の用例1を用いて分割事象対を作成する手順 の具体例を以下に示す.
事象2:「彼女は特別賞を得た」
事象間は節間キーワード「て」で結ばれている.
分割事象2a:「彼女は-得た」
分割事象2b:「特別賞を-得た」
DB2:『理科の懸賞作品募集に-応募する』→『〜て,特別賞を-得た』
DB3:『彼女は-得た』→『て〜,理科の懸賞作品募集に-応募する』
DB4:『特別賞を-得た』→『て〜,理科の懸賞作品募集に-応募する』
用例1つから分割事象対4件をDBに登録した.
98,999件文より表の節間キーワードで46,388件文の用例を抽出しDB化 を行った結果,162,294件の分割事象対を登録した.表に節間キー ワード別の分割事象対のDB登録数を示す.
節間キーワード | 抽出用例数 | 登録数 |
て | 20,921 | 73,684 |
と(引用) | 3,870 | 15,296 |
と(条件) | 4,348 | 13,940 |
ば | 2,417 | 7,554 |
ので | 2,639 | 9,974 |
ても | 1,709 | 5,196 |
が | 2,462 | 10,006 |
ように | 1,962 | 7,352 |
よう | 500 | 1,978 |
こと | 31 | 104 |
ことが | 691 | 2,414 |
ことは | 1,337 | 3,926 |
の | 4 | 16 |
のが | 1,002 | 3,370 |
のは | 2,495 | 7,494 |
計 | 46,388 | 162,294 |