next up previous contents
次へ: 手法 上へ: 実験データ 戻る: 京大コーパス   目次

教師の獲得

京大コーパスの 1995年1月1日〜1995年1月9日(休刊日のため1995年1月2日を除く)から教師データを,1995年1月10日〜1995年1月17日のデータからテストデータを生成する. 1994年全日を利用するデータは,1994年のデータに形態素解析システムJUMAN[17],構文解析システムKNP[18]を利用し教師を獲得する. まず,対象の助詞が最低1つは出現する文を抽出する. 次に,対象の助詞を取り除く. 対象の助詞を取り除いた文に対して,取り除いた助詞の種類を分類先として与える. 文中に対象の助詞が複数存在する文の場合, 対象の助詞の出現数分の教師データを獲得する. 例えば,「今は鳥取が熱い」の文からは次のような教師データを獲得する.$X$は取り除いた「は・が」の位置を表す.
副助詞は
 今$X$鳥取が熱い
格助詞が
 今は鳥取$X$熱い
の2つの教師データを獲得する. 教師データの素性の情報は京大コーパスの形態素・構文情報から得た. 獲得した教師データ数を表3.1に示す.
  • データ数
  • 表: データ数

    助詞 教師データ数 テストデータ数
    4323 5558
    4653 6009
    5529 7045
    2238 3071
    6432 8329
    85 85

    「に・へ」に関しては「へ」の教師数が少ないため,1994年の毎日新聞の記事一年分の各分類ごとの教師データ数を揃えたデータ(に:3,339文,へ:3,339文)も教師として利用する.教師データ数を表3.2に示す.

  • 教師バランスを調整した「に・へ」のデータ数
  • 表: 教師バランスを調整した「に・へ」のデータ数

    助詞 教師データ数
    3,339
    3,339



    平成25年2月12日