分類分けが中だが置き換え可の値が低かったもの

ここでは,分類分けが中だが置き換え可の値が高かったものとして,最も置き換え可の値が低かった,「発信」「着信」に関して考察する.また,形容詞と副詞の中に分類されたものは置き換え可否と機械学習の性能の逆の相関が得られなかったので「固い」「柔らかい」と「はっきり」「ぼんやり」も考察する. 「発信」「着信」は置き換え可と判断された割合は0.23(7/30)である. まず,「発信」「着信」について考察する. 表5.29に機械学習の性能を示す. 表5.30に機械学習が参考にした素性を示す.




表: 機械学習の性能(「着信」「発信」)
  データ数 再現率
着信 232 91.38%
発信 232 86.21%




表: 機械学習が参考にした素性(「着信」「発信」)
着信 発信
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:電話 0.80 素性1:情報 0.64
素性1:携帯 0.71 素性1:こと 0.62
素性1:番号 0.68 素性1:もの 0.58
素性1:メール 0.62 素性1:国際 0.56
素性1:拒否 0.56 素性1:日本 0.56

有用な素性としては「着信」は,「電話」「携帯」「番号」「メール」「拒否」など携帯に関するものが多く見られた.以下に例を示す.

「発信」は「情報」「こと」「もの」など,何を発信するかということについてのものや「国際」「日本」など世界に関するものなどが多く見られた.以下に例を示す. などがあった.

中に分類されたにも関わらず置き換え可の値が低くなってしまった原因としては,両方ともある程度有用な素性が得られて機械学習の性能がある程度高くなったが.だが,「着信」は受動的なもので「発信」は能動的なものであるので,慣用的な表現が多くなった.例えば,「着信」なら「着信拒否」や「着信履歴」などがあり,「発信」なら「発信力」や「発信者」などがある.よって,置き換え可の値が低くなってしまったと考えられる.

次に,「固い」「柔らかい」について考察する. 「固い」「柔らかい」は置き換え可と判断された割合は0.53(16/30)である. 表5.31に機械学習の性能を示す. 表[*]に機械学習が参考にした素性を示す.




表: 機械学習の性能(「固い」「柔らかい」)
  データ数 再現率
固い 787 82.19%
柔らかい 787 88.01%




表: 機械学習が参考にした素性(「固い」「柔らかい」)
固い 柔らかい
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:地盤 0.71 素性1:体 0.70
素性2:絆(直後) 0.66 素性1:音 0.66
素性1:握手 0.65 素性1:物腰 0.64
素性1:決意 0.63 素性1:声 0.61
素性1:結束 0.62 素性1:色 0.60

有用な素性としては「固い」は,「地盤」「絆(直後)」「決意」「結束」などの単語と共起することが見られた.「固い地盤」という表現は「地盤」という単語が「土地」の意味ではなく,「勢力」の意味で使われる際は慣用的な表現である.また,「固い握手」という慣用的な表現も見られた.以下に例を示す.

「柔らかい」は「体」「音」「物腰」「声」「色」などの単語と共起することが見られた.以下に例を示す.

置き換え可能の値が低くなった原因は,多義性により「柔らかい」は「柔らかい声」「柔らかい物腰」などの表現の場合「柔らかい」の対義語は「硬い」になり,置き換えできないと判断されることがあったからだと考えられる.また,「固い」に関しては「固い地盤」や「固い握手」といった慣用的な表現が見られたことも原因だと考えられる.

次に,「はっきり」「ぼんやり」について考察する. 「はっきり」「ぼんやり」は置き換え可と判断された割合は0.40(12/30)である. 表5.33に機械学習の性能を示す. 表5.34に機械学習が参考にした素性を示す.




表: 機械学習の性能(「はっきり」「ぼんやり」)
  データ数 再現率
はっきり 567 82.19%
ぼんやり 567 88.01%




表: 機械学習が参考にした素性(「はっきり」「ぼんやり」)
はっきり ぼんやり
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:形 0.78 素性2:する(直後) 0.72
素性1:生徒 0.69 素性1:全体 0.70
素性1:言葉 0.69 素性52:対象語が含まれる文節が修飾する文節の最後の自立語が「いる」 0.62
素性1:会見 0.65 素性52:対象語が含まれる文節が修飾する文節の最初の付属語が「ようだ」 0.67
素性1:大学 0.65 素性1:時間 0.66

有用な素性としては「はっきり」は,「形」「生徒」「言葉」「会見」「大学」などの単語と共起することが見られた.以下に例を示す.

「ぼんやり」は「全体」「時間」などの単語と共起することが見られた.また,「(人などが)ぼんやりする」「ぼんやり…いる」「ぼんやり…ような」という表現が見られた.以下に例を示す.

置き換え可能の値が低くなった原因は,「(人などが)ぼんやりする」という慣用的な表現が多く使われていることが原因だと考えられる.また,「(物事が)はっきりする」という慣用的な表現がおおく使われていることも原因だと考えられる.

分類分けが中だが置き換え可の値が低かったものとして,置き換え可の値が低かった,「発信」「着信」と「固い」「柔らかい」と「はっきり」「ぼんやり」の考察をおこなった.置き換え可能が低くなった理由としては以下のようなものが見られた.

被験者実験と機械学習の性能の傾向が一致しなかった対義語対の考察をした結果,それぞれの対義語対で傾向が一致しなかった原因はわかったが,全体として傾向などはつかめなかった.また,機械学習の性能が89%や79%に近いものは一概に相関が得られなかったと判断するべきではないと考えられる.高中低の分類ではなく機械学習の性能ごとに置き換え可否の値と比較する考察も重要であると考えられる.