ここでは分類分けが高で置き換え可の値が低かったものとして,「潜在」「顕在」と「引っ掛かる」「だます」と「迎える」「送る」と「うっすら」「はっきり」に関して考察する.
まず,「潜在」「顕在」に関して考察する.
「潜在」「顕在」は置き換え可と判断された割合は0.23(7/30)である.
表5.1に機械学習の性能を示す.
表5.2に機械学習が参考にした素性を示す.
表:
機械学習の性能(「潜在」「顕在」)
|
データ数 |
再現率 |
潜在 |
611 |
98.36% |
顕在 |
611 |
97.87% |
表:
機械学習が参考にした素性(「潜在」「顕在」)
|
有用な素性としては,「潜在」は,「的」が直後にくることや,直後に名詞がきて複合語を作る(「潜在力」など)用法をすることがあった.以下に例を示す.
- その潜在力への期待が強いわけですが、そのひとつ環日本海経済圏構想がさかんに言われるようになりましたね
- すべての政治家が、潜在的にはだれでも大統領になれるのに対し、前、元大統領だけは絶対になれない
また,文頭や会話文の文頭でよく使われることなどがあった.
「顕在」は「化」が直後にくることや,「潜在」と共起しやすいことなどがあった.以下に例を示す.
- 暴力性を顕在化させる青年
- 経産相は「新たな視点と工夫で潜在力を顕在化させるヒントをもらった」と強調した
「潜在」の場合は顕在とは共起しやすい素性はみられなかった.
また,両方に共通することだが「潜在」は「EU」,「顕在」は「憲法」「条約」「冷戦」など政治に関わる素性が多くみられた.これは,新聞から文を抽出していることも原因の一つと考えられる.
置き換え可の値が低い理由としては,「顕在」は「顕在化」という慣用的な表現がよく使われ,「潜在」は「潜在的」という慣用的な表現や,「顕在」では使えないが,直後に名詞が来て複合語を作る用法がよく使われていたため置き換え可の値が低くなったと考えられる.
次に,「引っ掛かる」「だます」に関して考察する.
「引っ掛かる」「だます」は置き換え可と判断された割合は0.13(4/30)である.
表5.3に機械学習の性能を示す.
表5.4に機械学習が参考にした素性を示す.
表:
機械学習の性能(「引っ掛かる」「だます」)
|
データ数 |
再現率 |
引っ掛かる |
64 |
93.75% |
だます |
64 |
93.75% |
表:
機械学習が参考にした素性(「引っ掛かる」「だます」)
引っ掛かる |
だます |
素性 |
正規化 値 |
素性 |
正規化 値 |
素性1:に(直前) |
0.75 |
素性2:を(直前) |
0.63 |
素性2:対象語が文末 |
0.54 |
素性1:人 |
0.55 |
有用な素性としては,「引っ掛かる」は,「に」が直前に来ることや,「引っ掛かる」が文末に来ることが多く見られた.以下に例を示す.
- だから高学歴なのにオウムなんかに引っ掛かる」と教育に危機感を示す
- 新・新党「結党宣言」案の中に引っ掛かる一文がある
また新聞から獲得したデータの中に「だます」の対義語として捉えれる例がほとんど見られなかった.「だます」は「を」が直前にくることや,「人」と共起しやすいことなどがあった.以下に例を示す.
- 「キツネは、外国人にとっては人をだますイメージがあるが、日本では神様の使いだ、と説明する」と助言した
- 卑しい顔にならず、私利私欲なく難解な文学論を語りながら、平然と人をだます
データ数が少なく「引っ掛かる」「だます」ともに格助詞の使い方以外の素性はあまり得られなかった.
置き換え可の値が低い理由としては,「引っ掛かる」は「に引っ掛かる」という使い方をし,「だます」は「をだます」という使い方をするので文法上の使い方の違いがはっきりしているため置き換え可の値が低くなったと考えられる.また,「引っ掛かる」の場合,言語の多義性により「だます」の対義語としてではなく,「(物事に)引っ掛かる」という意味で使われている文が多かったことも原因と考えられる.
次に「迎える」「送る」に関して考察する.
「迎える」「送る」は置き換え可と判断された割合は0.40(13/30)である.
表5.5に機械学習の性能を示す.
表5.6に機械学習が参考にした素性を示す.
表:
機械学習の性能(「迎える」「送る」)
|
データ数 |
再現率 |
送る |
1000 |
91.50% |
迎える |
1000 |
93.10% |
表:
機械学習が参考にした素性(「迎える」「送る」)
迎える |
送る |
素性 |
正規化 値 |
素性 |
正規化 値 |
素性1:周年 |
0.74 |
素性:日々 |
0.69 |
素性1:日 |
0.67 |
素性1:毎日 |
0.60 |
素性1:年 |
0.64 |
素性1:感謝 |
0.59 |
素性1:死 |
0.64 |
素性1:郵便 |
0.58 |
素性1:開幕 |
0.59 |
素性1:コメ |
0.57 |
有用な素性としては,「迎える」は「日」「死」「開幕」など,特定のタイミングもしくは,「周年」「年」といった長い期間のはじめを,「迎える」という用法が見られた.以下に例を示す.
- どんな死を迎えるかも、医療ケアの一部と考えられています
- 阪神は今季、球団創立60周年を迎える
「送る」は「日々」「毎日」など連続した期間を「送る」という表現や,「感謝」「郵便」「コメ」といった郵送に関するものが多く見られた.以下に例を示す.
- そのために、主人の写真を前にして、ない頭をあれやこれやとひねって、毎日を大切に送ることにした
- 問題はどういう形でコメを送るか
置き換え可の値が低くなった理由としては,「迎える」「送る」はともに期間や時間に関係する語を目的語とすることが多いが,それぞれ「日々を送る」や「死を迎える」といった,慣用的な表現があるためだと考えられる.また,「送る」の場合は多義性により,郵送などに関する意味だとその文中での対義語は「受け取る」や「受信する」などの単語であることもあり置き換え可の値が低くなったと考えられる.
次に「うっすら」「はっきり」に関して考察する.
「うっすら」「はっきり」は置き換え可と判断された割合は0.37(11/30)である.
表5.7に機械学習の性能を示す..66
表5.8に機械学習が参考にした素性を示す.
表:
機械学習の性能(「うっすら」「はっきり」)
|
データ数 |
再現率 |
うっすら |
397 |
94.21% |
はっきり |
397 |
92.70% |
表:
機械学習が参考にした素性(「うっすら」「はっきり」)
うっすら |
はっきり |
素性 |
正規化 値 |
素性 |
正規化 値 |
素性1:程度 |
0.65 |
素性:問題 |
0.64 |
素性1:朝 |
0.64 |
素性1:姿勢 |
0.63 |
素性46:対象語が含まれる文節が係る文節の最初の自立語が「見える」 |
0.60 |
素性1:結果 |
0.61 |
素性1:涙 |
0.59 |
素性1:けじめ |
0.60 |
素性1:雪 |
0.59 |
素性40:対象語が含まれる文節が係る文節の自立語が「する」 |
0.60 |
有用な素性としては,「うっすら」は「程度」「朝」「涙」などの単語と共起しやすいことが見られた.また,「うっすら」が文頭に来ることがよく見られた.以下に例文を示す.
- 今月23日に本社の一部で先行導入したところ、オフィスの明るさは人の顔がうっすら見える程度に
- 東日本大震災の被災地・岩手県沿岸部は、18日夜から降り出した雪が19日朝になっても残り、うっすらと白く染まった
- うっすらと涙がにじんでいるのに気づいたが、込み合う車内で涙をぬぐうことはできなかった
また,「うっすら見える」という表現や「うっすらと見える」という表現が多く見られた.
「はっきり」は「問題」「姿勢」「結果」「けじめ」などの単語と共起しやすいことが見られた.以下に例文を示す.
- 失業問題は景気循環だけでは解決できないことがはっきりした
- その姿勢に今季に懸ける気持ちがはっきりと表れている
- どういう結果が出るかは来年の歌曲の年においてはっきりするだろう
- はっきりとしたけじめを求める
また,「はっきりする」という表現が多く見られた.
置き換え可の値が低くなった理由としては,「うっすら」は「涙」や「雪」,表5.8では挙げられていないが,「汗」や「雲」や「あかり」などのような単語とともに使われ,「はっきり」は「はっきりする」という慣用的な表現がとてもよく使われており,ともに慣用的な表現がよく使われているため置き換え可の値が低くなったと考えられる.
分類分けが高で置き換え可の値が低かったものとして「潜在」「顕在」と「引っ掛かる」「だます」と「迎える」「送る」と「うっすら」「はっきり」を考察した.その結果,分類分けが低で置き換え可の値が高かったものの特徴として,以下のようなものが見られた.
- 慣用的な表現が多い,もしくは特定の慣用的な表現がよく使われる
- 多義性がある
- 格の変化が起こる
- 有用な素性が多く得られる