分類分けが高だが置き換え可の値が高かったもの

ここでは分類分けが高だが置き換え可の値が高かったものとして,置き換え可の値が特に高かった「誇る」「恥じる」と「鋭い」「鈍い」に関して考察する. まず,「誇る」「恥じる」に関して考察する. 「誇る」「恥じる」は置き換え可と判断された割合は0.77(23/30)である. 表5.17に機械学習の性能を示す. 表5.18に機械学習が参考にした素性を示す.




表: 機械学習の性能(「誇る」「恥じる」)
  データ数 再現率
誇る 143 93.01%
恥じる 143 93.01%




表: 機械学習が参考にした性能(「誇る」「恥じる」)
誇る 恥じる
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:1 0.63 素性1:こと 0.60
素性1:2 0.59 素性1:自分 0.59
素性2: 対象語が文末 0.57 素性23:対象語を修飾する節内の最初の単語の品詞が形容詞 0.58
素性1:世界 0.56 素性26:対象語を修飾する節内の単語の品詞が形容詞 0.57
素性1:優勝 0.54 素性1:不明 0.53

有用な素性としては,「誇る」は「1」「2」などのような数字が多く見られた.これは順位や数値を誇るものとしていることが多いからである.また,「誇る」が文末にきやすいことや,「世界」「優勝」などが見られた.以下に例文を示す. 「恥じる」は,「恥じること」や「不明を恥じる」といった慣用的な表現や,「自分の・・・を恥じる」といった表現や,「(形容動詞の名詞に変化したもの)を恥じる」といった用法が多く見られた.以下に例文を示す.

置き換え可の値が高くなってしまった原因は,「誇る」「恥じる」はともに慣用的な用法が少なく,且つ文法的な使い方の違いがあまりなく置き換え可の値が高くなったからだと考えられる.文法的な使い方の違いがあまりないにも関わらず機械学習の性能が高いのは,有用な素性を多く得られたからだと考えられる.「誇る」「恥じる」は置き換え可能ではあるが使われ方に傾向がある.例えば,「誇る」の場合,誇るものとして順位や数値などとともに共起しやすいことや,「誇る」で文が終わることなどである,「恥じる」の場合,「自分の・・・を恥じる」といった表現や「(形容動詞の名詞に変化したもの)を恥じる」といった用法などである.これは日本語学習に役立つ知見である.

次に「鋭い」「鈍い」について考察する. 「鋭い」「鈍い」は置き換え可と判断された割合は0.73(22/30)である. 表5.19に機械学習の性能を示す. 表5.20に機械学習が参考にした素性を示す.




表: 機械学習の性能(「鋭い」「鈍い」)
  データ数 再現率
鋭い 746 91.70%
鈍い 746 91.81%




表: 機械学習が参考にした性能(「鋭い」「鈍い」)
鋭い 鈍い
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:打球 0.62 素性1:音 0.70
素性1:切れ味 0.59 素性1:消費 0.63
素性1: 攻め 0.57 素性1:景気 0.62
素性1:子供 0.56 素性1:円 0.62
素性1:視線 0.54 素性1:ゴロ 0.60

有用な素性としては,「鋭い」は「打球」「切れ味」「攻め」「子供」「視線」など共起しやすい単語が見られた.以下に例文を示す. 鈍いは「消費」「景気」「円」など経済に関わることが多くみられた.以下に例文を示す. 近年日本の経済状況が良くないことが原因だと考えられる.また,「音」「ゴロ」など共起しやすい単語が見られた. 置き換え可の値が高くなってしまった原因は,「鋭い」「鈍い」はともに慣用的な用法が少なく,且つ文法的な使い方の違いがあまりなく置き換え可の値が高くなったからだと考えられる.また,「鋭い」「鈍い」は程度を表す言葉なので使い方の違いも少なく置き換え可の値が高くなったと考えられる.文法的な使い方の違いがあまりないにも関わらず機械学習の性能が高いのは,「鋭い」「鈍い」ともに正規化α値の高い素性が多く得られたことが原因だと考えられる.有用な素性であげたもの以外だと,「鋭い」だと「目」「振り」「指摘」「パス」などがあり,「鈍い」だと「痛み」「回復」「反応」「政府」などがある.

分類分けが高で置き換え可の値が高かったものとして「誇る」「恥じる」と「鋭い」「鈍い」を考察した.その結果,分類分けが高だが置き換え可の値が高かったものの特徴として,以下のようなものが見られた.