分類分けが低で置き換え可の値が高かったもの

ここでは分類分けが低で置き換え可の値が高かったものとして,「正室」「側室」と「勝つ」「負ける」と「少ない」「多い」と「ぐずぐず」「はきはき」に関して考察する.

まず,「正室」「側室」に関して考察する. 「正室」「側室」は置き換え可と判断された割合は1(30/30)である. 表5.9に機械学習の性能を示す. 表5.10に機械学習が参考にした素性を示す.




表: 機械学習の性能(「正室」「側室」)
  データ数 再現率
正室 113 69.03%
側室 113 69.03%




表: 機械学習が参考にした素性(「正室」「側室」)
正室 側室
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:側室 0.69 素性1:正室 0.59
素性1:北政所 0.60 素性1:阿茶局 0.54
素性1:濃姫 0.54 素性1:常盤 0.54

有用な素性としては,「正室」は「北政所」「濃姫」など,「正室」であった人物の素性が多く見られた.また,「側室」と共起しやすいことも見られた.また,「側室」の場合も「正室」と共起しやすい.以下に例文を示す.

「側室」も「正室」と同様に「阿茶局」「常盤」など「側室」であった人物の素性が多く見られた選挙に関わるものが多く見られた.以下に例文を示す.

置き換え可の値が高くなった理由は,「正室」「側室」はともに慣用的な表現があまりなく,格の変化なども起こらず,多義性がないことだと考えられる.機械学習の性能が低い原因は,「正室」「側室」はともに妻という関係性を表す言葉なので使い方の違いがほとんど無く,有用な素性があまり得られなかったことが原因と考えられる.

次に,「勝つ」「負ける」に関して考察する. 「勝つ」「負ける」は置き換え可と判断された割合は0.93(28/30)である. 表5.11に機械学習の性能を示す. 表5.12に機械学習が参考にした素性を示す.




表: 機械学習の性能(「勝つ」「負ける」)
  データ数 再現率
勝つ 1000 78.30%
負ける 1000 77.80%




表: 機械学習が参考にした素性(「勝つ」「負ける」)
勝つ 負ける
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:目標 0.76 素性1:戦争 0.80
素性1:自信 0.74 素性1:政治 0.70
素性1:力 0.71 素性1:党 0.66
素性1:記録 0.67 素性1:政府 0.65
素性1:引き分け 0.66 素性1:与党 0.64

有用な素性としては,「勝つ」は「目標」「自身」「力」「記録」など,「勝利」から連想されるようなものが多く見られた.また,「勝つか「引き分け」るか」という表現が多く見られた.この表現が多く見られたのは新聞に,リーグ戦の優勝や勝ち抜けを決めたりすることが掲載されているためだと考えられる.以下に例文を示す.

「負ける」は「政治」「党」「政府」「与党」など選挙に関わるものが多く見られた.また,「戦争」という素性も見られた.これは新聞に掲載されている,戦争に関する記事は日本が第二次世界大戦に負けたことに関する記事が多いことが原因だと考えられる.以下に例文を示す.

置き換え可の値が高くなった理由は,「勝つ」「負ける」ともに慣用的な表現があまりなく,格の変化なども起こらず,多義性がないことだと考えられる.機械学習の性能が低い原因は,「勝つ」「負ける」ともによく使われる言葉なので,「勝つ」「負ける」が出現する文章内容の種類が多いことが原因だと考えられる.

次に「少ない」「多い」に関して考察する. 「少ない」「多い」は置き換え可と判断された割合は1(30/30)である. 表5.13に機械学習の性能を示す. 表5.14に機械学習が参考にした素性を示す.




表: 機械学習の性能(「少ない」「多い」)
  データ数 再現率
少ない 1000 74.80%
多い 1000 73.50%




表: 機械学習が参考にした素性(「少ない」「多い」)
少ない 多い
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:情報 0.73 素性1:医療 0.71
素性1:要因 0.68 素性1:建設 0.65
素性1:選挙 0.63 素性1:雨 0.64
素性1:テレビ 0.62 素性1:トラブル 0.64
素性1:農業 0.68 素性1:反対 0.63

素性としては,「少ない」は「情報」「要因」「選挙」「テレビ」「農業」などが見られた.しかし,素性に共通点などは見られなかった.以下に例文を示す.

「多い」は「医療」「建設」「雨」「トラブル」「反対」などが見られたが,こちらも共通点などは見られなかった.以下に例文を示す.

置き換え可の値が高くなった理由は,「少ない」「多い」ともに慣用的な表現があまりなく,格の変化なども起こらず,多義性がないことだと考えられる.また,「少ない」「多い」は程度を表す言葉なので使い方の違いも少なく置き換え可の値が高くなったと考えられる.も機械学習の性能が低い原因は,「少ない」「多い」ともによく使われる言葉なので,「少ない」「多い」出現する文章内容の種類が多いことが原因だと考えられる.また,「勝つ」「負ける」より機械学習の性能が低いため,より広く使われていると考えられる.

次に「ぐずぐず」「はきはき」に関して考察する. 「ぐずぐず」「はきはき」は置き換え可と判断された割合は0.7(21/30)である. 表5.15に機械学習の性能を示す. 表5.16に機械学習が参考にした素性を示す.




表: 機械学習の性能(「ぐずぐず」「はきはき」)
  データ数 再現率
ぐずぐず 50 66.00%
はきはき 50 74.00%




表: 機械学習が参考にした素性(「ぐずぐず」「はきはき」)
ぐずぐず はきはき
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:結局 0.55 素性1:人 0.61
素性1:空模様 0.53 素性1:口調 0.56

素性としては,「ぐずぐず」は「結局」「空模様」などが見られた.「ぐずぐずした空模様」という慣用的な表現があった.以下に例文を示す.

「はきはき」は「人」「口調」などが見られた.「はきはきした口調」という慣用的な表現があった.以下に例文を示す.

置き換え可の値が高くなった理由は,「ぐずぐず」「はきはき」ともに慣用的な表現があまりなく,格の変化なども起こらず,多義性がないことだと考えられる. 機械学習の性能が低い原因は,データ数が少なく,「ぐずぐず」「はきはき」ともに格の変化が起こらないからだと考えれる. データ数が多ければ,少しは慣用的な表現があるので,分類分けで中に分類される程度に正解率があがると考えられる.

分類分けが低で置き換え可の値が高かったものとして「正室」「側室」と「勝つ」「負ける」と「少ない」「多い」と「ぐずぐず」「はきはき」を考察した.その結果,分類分けが低で置き換え可の値が高かったものの特徴として,以下のようなものが見られた.

被験者実験と機械学習の性能の傾向が一致した対義語対の考察をした結果,次のようなことがわかった.

一つ目は対義語対に慣用的な表現が少ない,もしくはあまり使われない場合,置き換え可の値が高くなることである.また,その際,慣用的な表現は機械学習の有用な素性になるので,慣用的な表現が少ない,もしくはあまり使われない場合は機械学習の性能が低くなる. 二つ目は対義語対のどちらかの単語に多義性が少ない場合,置き換え可の値が高くなることである.また,その際,多義性により文中のある単語Xの対義語Yが文中に出現した時,Yはその文中ではXの対義語ではなかった場合,Xが出現する文やYがXの対義語として出現する時の文と大幅に違うので機械学習でも簡単に判断できる.よってそのような文が少なくなると機械学習の性能が低くなる. 三つ目は対義語対の格の変化が起こりにくい場合,置き換え可の値が高くなることである.また,その際,格の変化という重要な素性が得られないため,機械学習の性能は低くなる.

これらのことは逆のことも言える.一つ目は,対義語対に慣用的な表現が多い,もしくはよく使われている場合置き換え可の値が低くなり,有用な素性が多く得られるので機械学習の性能が高くなる.二つ目は対義語対のどちらかの単語に多義性が多い場合,多義性により簡単に判断できる場合が多くなり,機械学習の性能が高くなる.三つ目は格の変化がおこりやすい場合,格のが特徴的であることを機械がよく学習し,機械学習の性能が高くなる.

また,出現する文章内容の種類が多いと学習しなければならない情報が多くなり,機械学習の性能が落ちる.このことは置き換え可否とは関係がないと考えられる.

「少ない」「多い」ともによく使われる言葉なので,「少ない」「多い」出現する文章内容の種類が多いことが原因だと考えられる.また,「勝つ」「負ける」より機械学習の性能が低いため,より広く使われていると考えられる.