next up previous contents
次へ: 事象間関係DBの記述形式 上へ: 事象間関係を表す用例の収集 戻る: 用例収集のための節間キーワードの選択   目次

用例の抽出とDB化

重文・複文のコーパスには,2つの節で構成される文と,3つの節で構成される文 がある.本稿では前者を対象に用例を抽出する.そのため,98,999文が抽出可能 な文となる.

用例の抽出からDB化までの手順を以下に,またその流れを図[*]に示す.

  1. 用例を抽出する.
  2. 節間キーワードの前後で,事象1と事象2に分割する.
  3. 事象検索のヒット率を高めるために事象1および事象2をそれぞれ1つの格 要素と述語の組(分割事象と呼ぶ)として分割する.なお,機械的に分 割するため,格要素および述語は以下のように定義した.

    格要素:
    体言のみ,体言+格助詞(「の,と,という」を除く),体 言+副助詞,体言+接尾辞,体言+接続助詞(「て」以外),副 詞のみ
    述語  :
    動詞,形容詞,形容動詞,体言+補助動詞,体言+接辞(接 頭辞,接尾辞以外)
    その他:
    体言に掛かる品詞は体言,述語に掛かる品詞は述語に 含む

  4. 事象1および事象2からそれぞれ得た分割事象を節間キーワードで組み合 わせて(分割事象対と呼ぶ),事象間関係DBに登録する.なお,分割事 象対は,事象1・2の順序について正順と逆順の2通り用意する.

図: 用例の抽出とDB化の流れ



\scalebox{1}{
\includegraphics{katei.eps}
}

上記の手順により,図[*]の用例1を用いて分割事象対を作成する手順 の具体例を以下に示す.

  1. 抽出用例:「理科の懸賞作品募集に応募して、彼女は特別賞を得た。」
  2. 事象1:「理科の懸賞作品募集に応募する」

    事象2:「彼女は特別賞を得た」

    事象間は節間キーワード「て」で結ばれている.

  3. 分割事象1:「理科の懸賞作品募集に-応募する」

    分割事象2a:「彼女は-得た」

    分割事象2b:「特別賞を-得た」

  4. DB1:『理科の懸賞作品募集に-応募する』→『〜て,彼女は-得た』

    DB2:『理科の懸賞作品募集に-応募する』→『〜て,特別賞を-得た』

    DB3:『彼女は-得た』→『て〜,理科の懸賞作品募集に-応募する』

    DB4:『特別賞を-得た』→『て〜,理科の懸賞作品募集に-応募する』

用例1つから分割事象対4件をDBに登録した.

98,999件文より表[*]の節間キーワードで46,388件文の用例を抽出しDB化 を行った結果,162,294件の分割事象対を登録した.表[*]に節間キー ワード別の分割事象対のDB登録数を示す.


表: 節間キーワード別の登録数
節間キーワード 抽出用例数 登録数
20,921 73,684
と(引用) 3,870 15,296
と(条件) 4,348 13,940
2,417 7,554
ので 2,639 9,974
ても 1,709 5,196
2,462 10,006
ように 1,962 7,352
よう 500 1,978
こと 31 104
ことが 691 2,414
ことは 1,337 3,926
4 16
のが 1,002 3,370
のは 2,495 7,494
46,388 162,294


next up previous contents
次へ: 事象間関係DBの記述形式 上へ: 事象間関係を表す用例の収集 戻る: 用例収集のための節間キーワードの選択   目次
平成18年3月20日