next up previous contents
次へ: KNPの性能調査 上へ: 実験 戻る: 学習データの拡張を行った追加実験   目次


文脈素性の削除を行った追加実験

教師あり機械学習で使用した素性のうち, 文脈に関する素性(表3.3の素性番号14番から23番)がどの程度 提案手法の性能に影響しているかを調べる.

実験に使用するデータは4.1節のものと同じだが, そのうちの文脈に関する素性を削除して 「に」「にも」, 「が」「がも」, 「を」「をも」の使い分けの実験を行った.

その結果を表4.14に示す. 4.2節の実験結果と比べると, 提案手法「がも」の正解率が0.69から0.66へ下っている. これより本研究の提案手法で用いた文脈に関する素性が 「がも」の使い分けにおいて有効であることがわかった.

以下に, 素性に文脈素性を含む場合の実験では正しく「がも」と推定できたが, 文脈素性を削除した場合の実験では「がも」と正しく推定できなかった文を示す. この例文は, 4.1節の「が」「がも」の使い分け問題における 各分類先のデータ数を揃えた学習データを使用し, 10分割のクロスバリデーションによる 「が」「がも」の使い分けの推定を行った結果から得たものである.

解析対象の「がも」である「も」を含む文節は一番最後の文にあり, 対象の「も」は太字で示している.
メコンの旅のささやかな冒険は, ラオス国境から中国$_{15}$・雲南省に入ることだった. ラオス北部は山が深いうえ, 外国人による国境越えは不可能, とされていた. 不安は残ったが, まず, 空路ルアンプラバンへ. ここからモーターボートでメコン川と支流のハン川を約三時間. ヘルメットにライフジャケットを着込んで, 岩場だらけの渓流を一気に上り, 通称「中国$_{15}$橋」の架かる山村に着いた. そこからトラックに揺られ約十時間. 国境の村で一泊. 翌朝, 検問所で恐る恐るパスポートを出すと, 両国いずれの係官も, 首をひねった末, 通過を許可してくれた. 国境から約百七十キロの景洪は「中国$_{15}$雲南省・西双版納(シーサンパンナ)ダイ族自治州」の州都で, タイ人の元祖, ダイ族が住む, いわばタイ人の故郷だ. 一年前に中国$_{15}$側から訪れたことがあった辺境の街は, 外資系ホテル, レストランが急増. 中国$_{15}$からの流民も増え$_{18,19}$, 一大観光都市として脚光を浴びていた. 「インドシナ半島から世界市場へ」を目指す雲南省は, ベトナム, ラオス, ミャンマーとの国境貿易で中国$_{15}$商品の売り込みに成功. 上海や広東方面からの中国$_{15}$人旅行者, うなぎ登りに増えた$_{18,19}$.

この文脈から生成される文脈素性は表3.3の素性番号15番と18,19番に該当する. 二重下線が文脈素性を生成する条件の元となる要素で, 下線部分がその文脈素性を生成する条件に該当する部分である. また, 表3.3の素性番号に当る数字をそれぞれ下線部分の右下に示す.


表: 文脈素性を削除した「も」の使い分けにおける分類結果
使い分け問題 分類先 正解率 マクロ平均  
に/にも 「に」 0.64 (4485/7045) 0.69  
  「にも」 0.74 ( 173/ 233)    
が/がも 「が」 0.63 ( 301/ 480) 0.65  
  「がも」 0.66 ( 47/ 71)    
を/をも 「を」 0.51 ( 838/1641) 0.58  
  「をも」 0.64 ( 18/ 28)    



平成26年4月2日