分類分けが高で置き換え可の値が低かったもの

ここでは分類分けが高で置き換え可の値が低かったものとして,「潜在」「顕在」と「引っ掛かる」「だます」と「迎える」「送る」と「うっすら」「はっきり」に関して考察する.

まず,「潜在」「顕在」に関して考察する. 「潜在」「顕在」は置き換え可と判断された割合は0.23(7/30)である. 表5.1に機械学習の性能を示す. 表5.2に機械学習が参考にした素性を示す.



表: 機械学習の性能(「潜在」「顕在」)
  データ数 再現率
潜在 611 98.36%
顕在 611 97.87%


表: 機械学習が参考にした素性(「潜在」「顕在」)


\scalebox{0.85}[0.85]{
\begin{tabular}{\vert l\vert c\vert l\vert c\vert}
\hline...
...&0.55 \\ \hline
素性2:対象語が文頭&0.55&素性1:潜在&0.55 \\ \hline
\end{tabular}}


有用な素性としては,「潜在」は,「的」が直後にくることや,直後に名詞がきて複合語を作る(「潜在力」など)用法をすることがあった.以下に例を示す.

また,文頭や会話文の文頭でよく使われることなどがあった. 「顕在」は「化」が直後にくることや,「潜在」と共起しやすいことなどがあった.以下に例を示す. 「潜在」の場合は顕在とは共起しやすい素性はみられなかった. また,両方に共通することだが「潜在」は「EU」,「顕在」は「憲法」「条約」「冷戦」など政治に関わる素性が多くみられた.これは,新聞から文を抽出していることも原因の一つと考えられる.

置き換え可の値が低い理由としては,「顕在」は「顕在化」という慣用的な表現がよく使われ,「潜在」は「潜在的」という慣用的な表現や,「顕在」では使えないが,直後に名詞が来て複合語を作る用法がよく使われていたため置き換え可の値が低くなったと考えられる.

次に,「引っ掛かる」「だます」に関して考察する. 「引っ掛かる」「だます」は置き換え可と判断された割合は0.13(4/30)である. 表5.3に機械学習の性能を示す. 表5.4に機械学習が参考にした素性を示す.




表: 機械学習の性能(「引っ掛かる」「だます」)
  データ数 再現率
引っ掛かる 64 93.75%
だます 64 93.75%




表: 機械学習が参考にした素性(「引っ掛かる」「だます」)
引っ掛かる だます
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:に(直前) 0.75 素性2:を(直前) 0.63
素性2:対象語が文末 0.54 素性1:人 0.55

有用な素性としては,「引っ掛かる」は,「に」が直前に来ることや,「引っ掛かる」が文末に来ることが多く見られた.以下に例を示す.

また新聞から獲得したデータの中に「だます」の対義語として捉えれる例がほとんど見られなかった.「だます」は「を」が直前にくることや,「人」と共起しやすいことなどがあった.以下に例を示す. データ数が少なく「引っ掛かる」「だます」ともに格助詞の使い方以外の素性はあまり得られなかった. 置き換え可の値が低い理由としては,「引っ掛かる」は「に引っ掛かる」という使い方をし,「だます」は「をだます」という使い方をするので文法上の使い方の違いがはっきりしているため置き換え可の値が低くなったと考えられる.また,「引っ掛かる」の場合,言語の多義性により「だます」の対義語としてではなく,「(物事に)引っ掛かる」という意味で使われている文が多かったことも原因と考えられる.

次に「迎える」「送る」に関して考察する. 「迎える」「送る」は置き換え可と判断された割合は0.40(13/30)である. 表5.5に機械学習の性能を示す. 表5.6に機械学習が参考にした素性を示す.




表: 機械学習の性能(「迎える」「送る」)
  データ数 再現率
送る 1000 91.50%
迎える 1000 93.10%




表: 機械学習が参考にした素性(「迎える」「送る」)
迎える 送る
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:周年 0.74 素性:日々 0.69
素性1:日 0.67 素性1:毎日 0.60
素性1:年 0.64 素性1:感謝 0.59
素性1:死 0.64 素性1:郵便 0.58
素性1:開幕 0.59 素性1:コメ 0.57

有用な素性としては,「迎える」は「日」「死」「開幕」など,特定のタイミングもしくは,「周年」「年」といった長い期間のはじめを,「迎える」という用法が見られた.以下に例を示す.

「送る」は「日々」「毎日」など連続した期間を「送る」という表現や,「感謝」「郵便」「コメ」といった郵送に関するものが多く見られた.以下に例を示す. 置き換え可の値が低くなった理由としては,「迎える」「送る」はともに期間や時間に関係する語を目的語とすることが多いが,それぞれ「日々を送る」や「死を迎える」といった,慣用的な表現があるためだと考えられる.また,「送る」の場合は多義性により,郵送などに関する意味だとその文中での対義語は「受け取る」や「受信する」などの単語であることもあり置き換え可の値が低くなったと考えられる.

次に「うっすら」「はっきり」に関して考察する. 「うっすら」「はっきり」は置き換え可と判断された割合は0.37(11/30)である. 表5.7に機械学習の性能を示す..66 表5.8に機械学習が参考にした素性を示す.




表: 機械学習の性能(「うっすら」「はっきり」)
  データ数 再現率
うっすら 397 94.21%
はっきり 397 92.70%




表: 機械学習が参考にした素性(「うっすら」「はっきり」)
うっすら はっきり
素性 正規化 $ \alpha $ 素性 正規化 $ \alpha $
素性1:程度 0.65 素性:問題 0.64
素性1:朝 0.64 素性1:姿勢 0.63
素性46:対象語が含まれる文節が係る文節の最初の自立語が「見える」 0.60 素性1:結果 0.61
素性1:涙 0.59 素性1:けじめ 0.60
素性1:雪 0.59 素性40:対象語が含まれる文節が係る文節の自立語が「する」 0.60

有用な素性としては,「うっすら」は「程度」「朝」「涙」などの単語と共起しやすいことが見られた.また,「うっすら」が文頭に来ることがよく見られた.以下に例文を示す.

また,「うっすら見える」という表現や「うっすらと見える」という表現が多く見られた. 「はっきり」は「問題」「姿勢」「結果」「けじめ」などの単語と共起しやすいことが見られた.以下に例文を示す. また,「はっきりする」という表現が多く見られた. 置き換え可の値が低くなった理由としては,「うっすら」は「涙」や「雪」,表5.8では挙げられていないが,「汗」や「雲」や「あかり」などのような単語とともに使われ,「はっきり」は「はっきりする」という慣用的な表現がとてもよく使われており,ともに慣用的な表現がよく使われているため置き換え可の値が低くなったと考えられる.

分類分けが高で置き換え可の値が低かったものとして「潜在」「顕在」と「引っ掛かる」「だます」と「迎える」「送る」と「うっすら」「はっきり」を考察した.その結果,分類分けが低で置き換え可の値が高かったものの特徴として,以下のようなものが見られた.