次へ: 実験結果
上へ: 実験
戻る: 実験
目次
実験データ
「に」「にも」の使い分けの実験において, 学習データは京大コーパス3.0の毎日新聞1995年1月1日から9日(2日は休刊で除く)の記事, テストデータは京大コーパス3.0の毎日新聞1995年1月10日から17日までの記事を使用する.
「が」「がも」は学習データとして, 京大コーパス4.0の1月1日から5日(2日は休刊で除く), テストデータとして京大コーパス4.0の1月6日と7日を使用する.
「を」「をも」は学習データとして, 京大コーパス4.0の1月1日から4日(2日は休刊で除く), テストデータとして京大コーパス4.0の1月5日から7日を使用する.
京大コーパスでは, 「がも」であるか「をも」であるかの情報も付与されており, その情報を利用して学習データ, テストデータを作成する.
それぞれから「に」と「にも」, 「が」と「がも」, 「を」と「をも」を含む文を獲得し, 実験を行う.
それぞれのデータ数は表4.1, 出現確率は表4.2である.
ただし, 機械学習法ではデータ数に偏りがある場合, 正しく動作しないことがある. 今回はどの場合もデータ数に差があるため, 学習データはデータ数が多い方をランダムにデータ数が少ない方の数だけ抽出して, データ数の偏りをなくしたものを使用する. ()の数字はデータ数を揃えたときの数である.
表:
データ数
使い分け問題に/にも |
全データ数 |
「に」の数 |
「にも」の数 |
学習データ |
5698 |
(338) |
5529 |
(169) |
169 |
テストデータ |
7278 |
|
7045 |
|
233 |
使い分け問題が/がも |
全データ数 |
「が」の数 |
「がも」の数 |
学習データ |
2235 |
(562) |
1954 |
(281) |
281 |
テストデータ |
551 |
|
480 |
|
71 |
使い分け問題を/をも |
全データ数 |
「を」の数 |
「をも」の数 |
学習データ |
2011 |
( 80) |
1971 |
( 40) |
40 |
テストデータ |
1669 |
|
1641 |
|
28 |
表:
出現確率
使い分け問題に/にも |
「に」の出現確率 |
「にも」の出現確率 |
学習データ |
0.97 |
0.03 |
テストデータ |
0.97 |
0.03 |
使い分け問題が/がも |
「が」の出現確率 |
「がも」の出現確率 |
学習データ |
0.87 |
0.13 |
テストデータ |
0.87 |
0.13 |
使い分け問題を/をも |
「を」の出現確率 |
「をも」の出現確率 |
学習データ |
0.98 |
0.02 |
テストデータ |
0.98 |
0.02 |
次へ: 実験結果
上へ: 実験
戻る: 実験
目次
平成26年4月2日