分類分けが低だが置き換え可の値が低かったもの

ここでは分類分けが低だが置き換え可の値が低かったものとして,置き換え可の値が低かった「沸かす」「冷やす」と「まだ」「もう」と「憎い」「いとしい」に関して考察する.

まず,「沸かす」「冷やす」に関して考察する. 「沸かす」「冷やす」は置き換え可と判断された割合は0.47(14/30)である. 表5.21に機械学習の性能を示す. 表5.22に機械学習が参考にした素性を示す.




表: 機械学習の性能(「沸かす」「冷やす」)
  データ数 再現率
沸かす 112 80.36%
冷やす 112 79.46%




表: 機械学習が参考にした素性(「沸かす」「冷やす」)
沸かす 冷やす
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:湯 0.63 素性1:海水 0.57
素性1:ガス 0.59 素性1:プール 0.56
素性1:風呂 0.59 素性1:燃料 0.56
素性1:まき 0.57 素性1:ビール 0.56
素性1:給湯 0.55 素性1:冷却 0.56

有用な素性としては「沸かす」が「湯」「ガス」「風呂」「まき」「給湯」などお湯に関係するものなどが多く見られた.以下に例文を示す.

「冷やす」では「ビール」などよく冷やすものや,「海水」「プール」「燃料」「冷却」など原発に関するものが多く見られた.これは使用している新聞が2011年〜2015年のものを含んでいるため東日本大震災における原発事故を新聞で多く扱ったことに起因すると考えられる.以下に例文を示す. 原発に関する素性が多いのは,取得できた文数が112文と少なく,さらに,新聞からデータを収集しているため,文の内容が偏ってしまったためだと考えられる.

置き換え可の値が低くなってしまった原因としては,「沸かす」の場合の対義語は概ね「冷やす」になるのだが,「冷やす」の場合,など,文中の意味によっては「温める」などが対義語になることが多くあった.以下に例文を示す.

よって,置き換え不可能となることが多くなったと考えられる.また,再現率が79.46%とほぼ中に分類される値であることも原因であると考えられる.

次に「憎い」「いとしい」に関して考察する. 「憎い」「いとしい」は置き換え可と判断された割合は0.67(20/30)である. 表[*]に機械学習の性能を示す. 表5.24に機械学習が参考にした素性を示す.




表: 機械学習の性能(「憎い」「いとしい」)
  データ数 再現率
憎い 97 63.92%
いとしい 97 75.26%




表: 機械学習が参考にした素性(「憎い」「いとしい」)
憎い いとしい
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性2:が(直前) 0.57 素性1:娘 0.60
素性1:犯人 0.56 素性41:対象語が含まれる文節が係る文節の自立語の品詞が名詞 0.59

データ数が少なかったのであまり有用な素性が得られなかった. 有用な素性としては,「憎い」は直前に「が」が来て「…が憎い」という表現や「犯人」などが見られた.

「もう」に関しては,直後に名詞が来て「いとしい…」という表現や,「娘」などが見られた.以下に例文を示す. などがあった.「…が憎い」や「いとしい…」という表現は対義語に置き換えても問題無い.よって,この2つの表現はそれぞれの対義語対の使われやすい表現ではあるが慣用的な表現ではない.

置き換え可の値が低くなってしまった原因としては,多義性により,「憎い」の文中内での対義語が「いとしい」ではなく「好ましい」と判断されたものがあったため置き換え可の値が低くなったと考えられる.使い方に関しては,よく使われる慣用的な表現もなく,文法的な使い方の違いもなかった.

次に「まだ」「もう」に関して考察する. 「まだ」「もう」は置き換え可と判断された割合は0.67(20/30)である. 表5.25に機械学習の性能を示す. 表5.26に機械学習が参考にした素性を示す.




表: 機械学習の性能(「まだ」「もう」)
  データ数 再現率
まだ 1000 80.00%
もう 1000 79.90%




表: 機械学習が参考にした素性(「まだ」「もう」)
まだ もう
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:者 0.72 素性2:一 0.75
素性1:日本 0.71 素性2:1 0.70
素性1:段階 0.70 素性1:最後 0.69
素性1:団 0.70 素性2:対象語が文頭 0.64
素性1:はず 0.68 素性1:たくさん 0.68

「まだ」に関しては有用な素性が得られなかった.以下に例文を示す. 「もう」に関しては直後に「1」と「一」が来ることが非常に多かった.「もう1回」,「もう一度」といった表現が多く見られた.直後に来るものだと,「たくさん」も「もうたくさん」という表現でよく使われていた.また,文頭で使われることが多かった。以下に例文を示す. などがあった.この場合でも「1」と「一」が直後にくる表現が多く見られた.

置き換え可の値が低くなってしまった原因としては,もうの直後に「1」と「一」が見られる慣用的な表現が多く見られたためと考えられる.また,こちらも「沸かす」「冷やす」と同様に再現率が0.79とほぼ中に分類される値であることも原因であると考えられる.

分類分けが高で置き換え可の値が高かったものとして「沸かす」「冷やす」と「憎い」「いとしい」と「まだ」「もう」を考察した.その結果,分類分けが低だが置き換え可の値が低かったものの特徴として,以下のようなものが見られた.