分類分けが低で置き換え可の値が高かったもの

ここでは分類分けが低で置き換え可の値が高かったものとして,「男声」「女声」と「増える」「減る」と「黒い」「白い」に関して考察する.

まず,「男声」「女声」に関して考察する. 「男声」「女声」は置き換え可と判断された割合は0.87(26/30)である. 表5.9に機械学習の性能を示す.表5.10に機械学習が参考にした素性を示す.




Table 5.9: 機械学習の性能(「男声」「女声」)
  データ数 再現率
男声 84 45.15%
女声 84 60.73%




Table 5.10: 機械学習が参考にした性能(「男声」「女声」)
男声 女声
素性 数値 素性 数値
素性1:兵士 0.7403 素性1:主婦 0.6381
素性1:男子 0.7324 素性1:女性 0.6322

「男声」は「男子校」「兵士」など,性別に関する素性が見られた. また,「女声」と同時に使われることが多いことも見られた.また,「女声」の場合も「男声」と共同様に一緒に出現しやすい.以下に例文を示す.

「女声」も「男声」と同様に「女性」「主婦」など性別に関する素性が見られた. 以下に例文を示す.

置き換え可の値が高くなった理由は,「男声」「女声」はともに慣用的な表現があまりなく,格の変化なども起こらず,多義性がないためだと考えられる.機械学習の性能が低い原因は,「男声」「女声」はともに音楽に関係する言葉なので使い方の違いがほとんど無く,有用な素性があまり得られなかったことが原因と考えられる.

次に,「増える」「減る」に関して考察する. 「増える」「減る」は置き換え可と判断された割合は0.70(21/30)である. 表5.11に機械学習の性能を示す.表5.12に機械学習が参考にした素性を示す.




Table 5.11: 機械学習の性能(「増える」「減る」)
  データ数 再現率
増える 1000 69.30%
減る 1000 69.40%




Table 5.12: 機械学習が参考にした性能(「増える」「減る」)
増える 減る
素性 数値 素性 数値
素性1:出張 0.9858 素性1:党員 0.9118
素性1:来日 0.9725 素性1:面接 0.9050
素性1:リハビリ 0.9677 素性1:田舎 0.9017
素性1:排ガス 0.9534 素性1:年金 0.8893

素性としては,「増える」は「出張」「来日」「リハビリ」「排ガス」などが見られた.しかし,素性に共通点などは見られなかった.以下に例文を示す.

「減る」は「党員」「面接」「田舎」「年金」などが見られたが,こちらも共通点などは見られなかった.以下に例文を示す.

置き換え可の値が高くなった理由は,「増える」「減る」ともに慣用的な表現があまりなく,格の変化なども起こらず,多義性がないことだと考えられる.機械学習の性能が低い原因は,「増える」「減る」ともによく使われる言葉なので,「増える」「減る」が出現する文章内容の種類が多いことが原因だと考えられる.

次に「黒い」「白い」に関して考察する. 「黒い」「白い」は置き換え可と判断された割合は0.67(20/30)である. 表5.13に機械学習の性能を示す.表5.14に機械学習が参考にした素性を示す.




Table 5.13: 機械学習の性能(「黒い」「白い」)
  データ数 再現率
黒い 1000 65.20%
白い 1000 68.30%




Table 5.14: 機械学習が参考にした性能(「黒い」「白い」)
黒い 白い
素性 数値 素性 数値
素性1:石炭 0.6760 素性1:氷原 0.9700
素性1:噂 0.6552 素性1:LED 0.6314
素性1:スーツ 0.6002 素性1:月 0.6079

素性としては,「黒い」は「石炭」「噂」「スーツ」など「黒い」色に関するものの素性が得られた。以下に例文を示す.

「白い」は「歯」「氷原」「LED」「月」などが「白い」色に関するものの素性が得られた。以下に例文を示す.

置き換え可の値が高くなった理由は,「黒い」「白い」ともに慣用的な表現があまりなく,格の変化なども起こらず,多義性がないことだと考えられる.機械学習の性能が低い原因は,「黒い」「白い」ともによく使われる言葉なので,「黒い」「白い」出現する文章内容の種類が多いことが原因だと考えられる.

分類分けが低で置き換え可の値が高かったものとして「男声」「女声」と「増える」「減る」と「黒い」「白い」を考察した.その結果,分類分けが低で置き換え可の値が高かったものの特徴として,佐々本ら[3]と同様に以下のようなものが見られた.

被験者実験と機械学習の性能の傾向が一致した対義語対の考察をした結果,次のようなことが佐々本ら[3]と同様に確認できた.

一つ目は対義語対に慣用的な表現が少ない,もしくはあまり使われない場合,置き換え可の値が高くなることである.また,その際,慣用的な表現は機械学習が重要と判断した素性になるので,慣用的な表現が少ない,もしくはあまり使われない場合は機械学習の性能が低くなる. 二つ目は対義語対のどちらかの単語に多義性が少ない場合,置き換え可の値が高くなることである.また,その際,多義性により文中のある単語Xの対義語Yが文中に出現した時,Yはその文中ではXの対義語ではなかった場合,Xが出現する文やYがXの対義語として出現する時の文と大幅に違うので機械学習でも簡単に判断できる.よってそのような文が少なくなると機械学習の性能が低くなる.

これらのことは逆のことも言える.一つ目は,対義語対に慣用的な表現が多い,もしくはよく使われている場合置き換え可の値が低くなり,有用な素性が多く得られるので機械学習の性能が高くなる.二つ目は対義語対のどちらかの単語に多義性が多い場合,多義性により簡単に判断できる場合が多くなり,機械学習の性能が高くなる.

また,出現する文章内容の種類が多いと学習しなければならない情報が多くなり,機械学習の性能が落ちる.このことは置き換え可否とは関係がないと考えられる.