next up previous contents
次へ: この文書について... 上へ: soturon5 戻る: 参考文献   目次


「も」の分類

付録Aでは「も」の分類を扱う.

助詞の「も」を含む文からは, 直接伝わる情報と, 助詞の「も」を使うことでそこから読み取れる間接的な情報を得ることができる. 例えば「太郎来た. 」という文からは, 「太郎が来た」ことと, 「太郎以外の誰か(例えば二郎)が来た. 」ことが同時に示される. 本論文では沼田の研究[1]を参考にし, 「も」の直前にある名詞句を自者といい, 自者に対する他の名詞句を他者という. 上の例では「太郎」が自者で, 「他の誰か(例えば二郎)」が他者にあたる. このように他者が想定できる場合, その「も」はとりたて詞の「も」といわれる. この他者は文中に存在していなくても他者が想定できる場合はとりたて詞の「も」とされる.

とりたて詞である場合ととりたて詞でない場合の例を以下に示す.

とりたて詞である
ドルの評価下がり, 対ドルレートが大きく変わらない割には, 円の評価が落ちる.
とりたて詞でない
政策金利を一年間に三%, 四%動かすのは過激すぎる.
本節では, 対象の「も」がとりたて詞であるか否かの分類の問題を扱う. とりたて詞であるか否かの推定を, 教師あり機械学習により行う.

とりたて詞であるか否かの推定では, とりたて詞であるとき, 前方の文脈中に他者が存在しない場合もあるが他者は必ず存在するため, 確実に他者が存在しないものを省くことができる. これは今後行う予定である文脈中に他者が存在するとりたて詞であるか否かの推定実験に 役立つと思われる.

実際にとりたて詞であるか否かの分類を行った. 毎日新聞91年, 92年の助詞「も」を含むはじめの100文に, 対象の「も」がとりたて詞であるか否かのタグ付けを行い, 91年のものを学習データ, 92年のものをテストデータとして使用した. 機械学習の素性には対象の「も」の前後の文字, 形態素, 形態素の品詞を利用した. また, ベースライン手法として全てをとりたて詞とする場合と全てをとりたて詞でないとする場合 の二種類を求めた. それぞれのデータ数を表A.1, 結果を表A.2に示す. また, 表A.3に実験の結果をF値で表す.

対象の「も」の前後の情報しか素性として利用していないのに, ある程度の性能を得ることができた. 得られた特徴としては, 解析対象の「も」の直前の形態素が名詞である場合はとりたて詞でることが多い, また, 解析対象の「も」の直前の形態素が「%」である場合や直後の形態素が動詞である場合は とりたて詞でないことが多いなどである.

今後文脈の情報などを素性に追加して性能の向上を目指す.


表: とりたて詞に関わる実験データ数
  全データ数 とりたて詞である数 とりたて詞でない数
学習データ 100 83 17
テストデータ 100 61 39


表: とりたて詞に関わる分類結果
手法 分類先 正解率 マクロ平均  
提案手法 とりたて詞である 1.00 (61/61) 0.74  
  とりたて詞でない 0.49 (19/39)    
ベースライン手法 とりたて詞である 1.00 (61/61) 0.50  
全てとりたて詞である とりたて詞でない 0.00 (0/39)    
ベースライン手法 とりたて詞である 0.00 (0/61) 0.50  
全てとりたて詞でない とりたて詞でない 1.00 (39/39)    


表: とりたて詞に関わる分類結果(F値)
手法 分類先 再現率 適合率 F値
提案手法 とりたて詞である 1.00 (61/61) 0.75 (61/81) 0.86
  とりたて詞でない 0.49 (19/39) 1.00 (19/19) 0.66
ベースライン手法 とりたて詞である 1.00 (61/61) 0.61 (61/100) 0.76
全てとりたて詞である            
ベースライン手法 とりたて詞でない 1.00 (39/639) 0.39 (39/100) 0.56
全てとりたて詞でない            


next up previous contents
次へ: この文書について... 上へ: soturon5 戻る: 参考文献   目次
平成26年4月2日