next up previous contents
次へ: 有用な素性の内訳 上へ: 分析 戻る: 分析4:「に・を」使い分け   目次

素性の頻度分析によるルールの獲得

どういった素性が出現すると「は」,「が」,「に」,「へ」,「で」,「を」が使われやすいのかを明らかにするために, 素性の頻度分析を行った. 「は・が」,「に・を」は本研究で用いた教師データを利用して分析を行う. 「に・で」は教師データ数が偏っているため,データ数を揃えたデータ(に:2,238文,で:2,238文)を利用し分析を行う. 「に・へ」においては「へ」の教師が少ないため,1994年の毎日新聞の記事一年分のデータ数を揃えたデータ(に:3,339文,へ:3,339文)を利用する.

素性の出現頻度が50回以上であり,テストデータにおいてその素性が出現した場合にその分類先が出現する確率が0.75以上の素性を使い分けに有用な 素性として獲得する. 獲得された使い分けに有用な素性の数を表6.5に示す.

  • 有用な素性の数
  • 表: 有用な素性の数

    分類問題 分類先 獲得ルール数
    は・が 40
      49
    に・へ 63
      127
    に・で 28
      34
    に・を 74
      114



    Subsections

    平成25年2月12日