next up previous contents
Next: 「おかげ」「せい」「ため」 Up: 素性分析による考察 Previous: 素性分析による考察   目次


類義語の組ごとの考察

本節では,類義語の組ごとに使い分けに関する考察を行う.類義語ごとにデータ数を同数にした実験を基に考察を行った. 機械学習が正しく判定した正解例と機械学習が誤って判定した誤り例を類義語ごとにそれぞれ例を示す.下線が機械学習が判定した結果であり,括弧内が元の文の語である.

類義語の使い分けにおいて,それぞれどのような素性が使い分けに役に立つのかを明らかにするために,素性の分析を行う. 素性が全データでの出現率より偏って多くいずれかの分類先に出現しているかを,二項検定に基づく符号検定により求め,有意確率p値を求める.有意確率p値が0.05以下であり,学習データでの出現頻度が多い素性の例を表に示す.

また,正規化$ \alpha $ 値が高かった素性の例も表に示す. 機械学習が判定を行う際に参考にした素性とその素性の正規化α値を示す. 正規化α値とは,最大エントロピー法で求まるα値を全分類先での合計が1となるように正規化した値である. 各素性の,分類先ごとに与えられた正規化α値が高いほど,その分類先であることを推定するのに重要な素性であることを意味する.例えば,ある素性Sのある分類先Aに対する正規化α値がXとすると, その素性Sのみで分類を行った場合,分類先Aと推定する確率がXとなることを意味する.ここで示す素性のうち,「デフォルト素性」は常に利用されるデフォルトの素性であり,他に情報がなければこの素性のみにより分類先が決定される.



Subsections

root 2018-02-28