next up previous contents
次へ: 実験結果 上へ: 実験 戻る: 実験   目次


実験データ

「に」「にも」の使い分けの実験において, 学習データは京大コーパス3.0の毎日新聞1995年1月1日から9日(2日は休刊で除く)の記事, テストデータは京大コーパス3.0の毎日新聞1995年1月10日から17日までの記事を使用する. 「が」「がも」は学習データとして, 京大コーパス4.0の1月1日から5日(2日は休刊で除く), テストデータとして京大コーパス4.0の1月6日と7日を使用する. 「を」「をも」は学習データとして, 京大コーパス4.0の1月1日から4日(2日は休刊で除く), テストデータとして京大コーパス4.0の1月5日から7日を使用する. 京大コーパスでは, 「がも」であるか「をも」であるかの情報も付与されており, その情報を利用して学習データ, テストデータを作成する. それぞれから「に」と「にも」, 「が」と「がも」, 「を」と「をも」を含む文を獲得し, 実験を行う. それぞれのデータ数は表4.1, 出現確率は表4.2である.

ただし, 機械学習法ではデータ数に偏りがある場合, 正しく動作しないことがある. 今回はどの場合もデータ数に差があるため, 学習データはデータ数が多い方をランダムにデータ数が少ない方の数だけ抽出して, データ数の偏りをなくしたものを使用する. ()の数字はデータ数を揃えたときの数である.


表: データ数
使い分け問題に/にも 全データ数 「に」の数 「にも」の数
学習データ 5698 (338) 5529 (169) 169
テストデータ 7278   7045   233
使い分け問題が/がも 全データ数 「が」の数 「がも」の数
学習データ 2235 (562) 1954 (281) 281
テストデータ 551   480   71
使い分け問題を/をも 全データ数 「を」の数 「をも」の数
学習データ 2011 ( 80) 1971 ( 40) 40
テストデータ 1669   1641   28


表: 出現確率
使い分け問題に/にも 「に」の出現確率 「にも」の出現確率
学習データ 0.97 0.03
テストデータ 0.97 0.03
使い分け問題が/がも 「が」の出現確率 「がも」の出現確率
学習データ 0.87 0.13
テストデータ 0.87 0.13
使い分け問題を/をも 「を」の出現確率 「をも」の出現確率
学習データ 0.98 0.02
テストデータ 0.98 0.02


next up previous contents
次へ: 実験結果 上へ: 実験 戻る: 実験   目次
平成26年4月2日