類義語の使い分けにおいて,それぞれどのような素性が使い分けに役に立つのかを明らかにするために,素性の分析を行う. 素性が全データでの出現率より偏って多くいずれかの分類先に出現しているかを,二項検定に基づく符号検定により求め,有意確率p値を求める.有意確率p値が0.05以下であり,学習データでの出現頻度が多い素性の例を表に示す.
また,正規化 値が高かった素性の例も表に示す. 機械学習が判定を行う際に参考にした素性とその素性の正規化α値を示す. 正規化α値とは,最大エントロピー法で求まるα値を全分類先での合計が1となるように正規化した値である. 各素性の,分類先ごとに与えられた正規化α値が高いほど,その分類先であることを推定するのに重要な素性であることを意味する.例えば,ある素性Sのある分類先Aに対する正規化α値がXとすると, その素性Sのみで分類を行った場合,分類先Aと推定する確率がXとなることを意味する.ここで示す素性のうち,「デフォルト素性」は常に利用されるデフォルトの素性であり,他に情報がなければこの素性のみにより分類先が決定される.