助詞の「も」を含む文からは, 直接伝わる情報と, 助詞の「も」を使うことでそこから読み取れる間接的な情報を得ることができる. 例えば「太郎も来た. 」という文からは, 「太郎が来た」ことと, 「太郎以外の誰か(例えば二郎)が来た. 」ことが同時に示される. 本論文では沼田の研究[1]を参考にし, 「も」の直前にある名詞句を自者といい, 自者に対する他の名詞句を他者という. 上の例では「太郎」が自者で, 「他の誰か(例えば二郎)」が他者にあたる. このように他者が想定できる場合, その「も」はとりたて詞の「も」といわれる. この他者は文中に存在していなくても他者が想定できる場合はとりたて詞の「も」とされる.
とりたて詞である場合ととりたて詞でない場合の例を以下に示す.
とりたて詞であるか否かの推定では, とりたて詞であるとき, 前方の文脈中に他者が存在しない場合もあるが他者は必ず存在するため, 確実に他者が存在しないものを省くことができる. これは今後行う予定である文脈中に他者が存在するとりたて詞であるか否かの推定実験に 役立つと思われる.
実際にとりたて詞であるか否かの分類を行った. 毎日新聞91年, 92年の助詞「も」を含むはじめの100文に, 対象の「も」がとりたて詞であるか否かのタグ付けを行い, 91年のものを学習データ, 92年のものをテストデータとして使用した. 機械学習の素性には対象の「も」の前後の文字, 形態素, 形態素の品詞を利用した. また, ベースライン手法として全てをとりたて詞とする場合と全てをとりたて詞でないとする場合 の二種類を求めた. それぞれのデータ数を表A.1, 結果を表A.2に示す. また, 表A.3に実験の結果をF値で表す.
対象の「も」の前後の情報しか素性として利用していないのに, ある程度の性能を得ることができた. 得られた特徴としては, 解析対象の「も」の直前の形態素が名詞である場合はとりたて詞でることが多い, また, 解析対象の「も」の直前の形態素が「%」である場合や直後の形態素が動詞である場合は とりたて詞でないことが多いなどである.
今後文脈の情報などを素性に追加して性能の向上を目指す.