next up previous contents
次へ: 文脈素性の削除を行った追加実験 上へ: 実験 戻る: 「を」「をも」の分析   目次


学習データの拡張を行った追加実験

前節の実験結果において性能があまりよくなかった一因に, 学習データの不足が考えられる. そこで前節の学習データの拡張を行い, 性能の向上を目指す.

毎日新聞91年の1年分の記事をKNPで構文解析を行い, 4.1節で 使用した学習データに追加した. KNPには格解析の機能もついており, 「がも」「をも」の認識も可能である. 学習データ追加後のデータ数はそれぞれ表4.11, 出現確率は表4.12である. また, 学習データ追加後の実験結果はそれぞれ表4.13である.

前節の実験結果と比べると, 学習データの拡張によって「に」「にも」, 「を」「をも」において 高いマクロ平均を得ることができた. 「に」「にも」ではマクロ平均は0.80となった. 前節であまり良い性能が得られなかった「を」「をも」でも, マクロ平均が0.56から上昇し0.71となった. しかし, 「が」「がも」のマクロ平均は下ってしまう結果となった. これは, 拡張したデータはKNPで作成しており, KNPでは誤った処理をする可能性があり誤ったデータを追加で用いたことが 影響している可能性がある.


表: 学習データ拡張後のデータ数
使い分け問題に/にも 全データ数 「に」の数 「にも」の数
学習データ 507318 (28348) 493144 (14174) 14174
テストデータ 7278   7045   233
使い分け問題が/がも 全データ数 「が」の数 「がも」の数
学習データ 426185 (76478) 387946 (38239) 38239
テストデータ 551   480   71
使い分け問題を/をも 全データ数 「を」の数 「をも」の数
学習データ 572437 (10916) 566979 (5458) 5458
テストデータ 1669   1641   28


表: 学習データ拡張後の出現確率
使い分け問題に/にも 「に」の出現確率 「にも」の出現確率
学習データ 0.97 0.03
テストデータ 0.97 0.03
使い分け問題が/がも 「が」の出現確率 「がも」の出現確率
学習データ 0.91 0.09
テストデータ 0.87 0.13
使い分け問題を/をも 「を」の出現確率 「をも」の出現確率
学習データ 0.99 0.01
テストデータ 0.98 0.02


表: 学習データ拡張後の「も」の使い分けにおける分類結果
使い分け問題 分類先 正解率 マクロ平均  
に/にも 「に」 0.76 (5377/7045) 0.80  
  「にも」 0.85 ( 197/ 233)    
が/がも 「が」 0.79 ( 378/ 480) 0.65  
  「がも」 0.51 ( 36/ 71)    
を/をも 「を」 0.78 (1282/1641) 0.71  
  「をも」 0.64 ( 18/ 28)    


next up previous contents
次へ: 文脈素性の削除を行った追加実験 上へ: 実験 戻る: 「を」「をも」の分析   目次
平成26年4月2日