次へ: 文脈素性の削除を行った追加実験
上へ: 実験
戻る: 「を」「をも」の分析
目次
学習データの拡張を行った追加実験
前節の実験結果において性能があまりよくなかった一因に, 学習データの不足が考えられる.
そこで前節の学習データの拡張を行い, 性能の向上を目指す.
毎日新聞91年の1年分の記事をKNPで構文解析を行い, 4.1節で
使用した学習データに追加した.
KNPには格解析の機能もついており,
「がも」「をも」の認識も可能である.
学習データ追加後のデータ数はそれぞれ表4.11, 出現確率は表4.12である. また, 学習データ追加後の実験結果はそれぞれ表4.13である.
前節の実験結果と比べると, 学習データの拡張によって「に」「にも」, 「を」「をも」において
高いマクロ平均を得ることができた.
「に」「にも」ではマクロ平均は0.80となった.
前節であまり良い性能が得られなかった「を」「をも」でも,
マクロ平均が0.56から上昇し0.71となった.
しかし, 「が」「がも」のマクロ平均は下ってしまう結果となった.
これは, 拡張したデータはKNPで作成しており,
KNPでは誤った処理をする可能性があり誤ったデータを追加で用いたことが
影響している可能性がある.
表:
学習データ拡張後のデータ数
使い分け問題に/にも |
全データ数 |
「に」の数 |
「にも」の数 |
学習データ |
507318 |
(28348) |
493144 |
(14174) |
14174 |
テストデータ |
7278 |
|
7045 |
|
233 |
使い分け問題が/がも |
全データ数 |
「が」の数 |
「がも」の数 |
学習データ |
426185 |
(76478) |
387946 |
(38239) |
38239 |
テストデータ |
551 |
|
480 |
|
71 |
使い分け問題を/をも |
全データ数 |
「を」の数 |
「をも」の数 |
学習データ |
572437 |
(10916) |
566979 |
(5458) |
5458 |
テストデータ |
1669 |
|
1641 |
|
28 |
表:
学習データ拡張後の出現確率
使い分け問題に/にも |
「に」の出現確率 |
「にも」の出現確率 |
学習データ |
0.97 |
0.03 |
テストデータ |
0.97 |
0.03 |
使い分け問題が/がも |
「が」の出現確率 |
「がも」の出現確率 |
学習データ |
0.91 |
0.09 |
テストデータ |
0.87 |
0.13 |
使い分け問題を/をも |
「を」の出現確率 |
「をも」の出現確率 |
学習データ |
0.99 |
0.01 |
テストデータ |
0.98 |
0.02 |
表:
学習データ拡張後の「も」の使い分けにおける分類結果
使い分け問題 |
分類先 |
正解率 |
マクロ平均 |
|
に/にも |
「に」 |
0.76 |
(5377/7045) |
0.80 |
|
|
「にも」 |
0.85 |
( 197/ 233) |
|
|
が/がも |
「が」 |
0.79 |
( 378/ 480) |
0.65 |
|
|
「がも」 |
0.51 |
( 36/ 71) |
|
|
を/をも |
「を」 |
0.78 |
(1282/1641) |
0.71 |
|
|
「をも」 |
0.64 |
( 18/ 28) |
|
|
次へ: 文脈素性の削除を行った追加実験
上へ: 実験
戻る: 「を」「をも」の分析
目次
平成26年4月2日