次へ: 手法
上へ: 実験データ
戻る: 京大コーパス
目次
京大コーパスの
1995年1月1日〜1995年1月9日(休刊日のため1995年1月2日を除く)から教師データを,1995年1月10日〜1995年1月17日のデータからテストデータを生成する.
1994年全日を利用するデータは,1994年のデータに形態素解析システムJUMAN[17],構文解析システムKNP[18]を利用し教師を獲得する.
まず,対象の助詞が最低1つは出現する文を抽出する.
次に,対象の助詞を取り除く.
対象の助詞を取り除いた文に対して,取り除いた助詞の種類を分類先として与える.
文中に対象の助詞が複数存在する文の場合,
対象の助詞の出現数分の教師データを獲得する.
例えば,「今は鳥取が熱い」の文からは次のような教師データを獲得する.は取り除いた「は・が」の位置を表す.
- 副助詞は
- 今鳥取が熱い
- 格助詞が
- 今は鳥取熱い
の2つの教師データを獲得する.
教師データの素性の情報は京大コーパスの形態素・構文情報から得た.
獲得した教師データ数を表3.1に示す.
データ数
表:
データ数
助詞 |
教師データ数 |
テストデータ数 |
は |
4323 |
5558 |
が |
4653 |
6009 |
に |
5529 |
7045 |
で |
2238 |
3071 |
を |
6432 |
8329 |
へ |
85 |
85 |
|
|
「に・へ」に関しては「へ」の教師数が少ないため,1994年の毎日新聞の記事一年分の各分類ごとの教師データ数を揃えたデータ(に:3,339文,へ:3,339文)も教師として利用する.教師データ数を表3.2に示す.
平成25年2月12日