next up previous contents
次へ: 考察 上へ: 分類の評価 戻る: 比較する分類手法   目次

特徴度ごとのヒント数集計結果

まず,「江ノ島海岸」のブログ記事における集計結果のヒストグラムをそれぞれ 図6.36.4に示す.なお, 長所情報を構成する3文の内,1文でもヒント有りが付与されている場合,その長 所情報はヒント有りとして集計している.

図 6.3: 分類手法Aにおける名詞の特徴度とヒントの出現数の関係(江ノ島海岸)
図 6.4: 分類手法Bにおける名詞の特徴度とヒントの出現数の関係(江ノ島海岸)
\includegraphics[width=110mm]{fig/eno_histogram1.eps}

\includegraphics[width=110mm]{fig/eno_histogram2.eps}

6.3,6.4では,以下の 条件でヒストグラムを作成した.

6.3,6.4を見ると,と もに特徴度が高い区間に集中してヒントが出現していることがわかる.また,特 徴度が負の範囲において,図6.4の方が,ヒント有り の出現数が多いことがわかる.ここで,各特徴度区間における具体的なヒントの 出現数を表6.2に示す.ヒント有の列における括弧 内の数値は,同じ特徴度区間内におけるヒント有の割合を表す.

表 6.2: 名詞の特徴度におけるヒントの出現数(江ノ島海岸)
  (a)分類手法A (b)分類手法B
特徴度区間 ヒント有 ヒント無 ヒント有 ヒント無
  [個](%) [個] [個](%) [個]
1.645〜 1.295 23(49%) 24 182(54%) 156
1.295〜 0.945 25(50%) 25 48(35%) 88
0.945〜 0.595 20(47%) 23 40(29%) 97
0.595〜 0.245 0(  0%) 0 0(  0%) 0
-0.455〜-0.805 0(  0%) 0 0(  0%) 0
-0.805〜-1.155 1(  7%) 14 8(21%) 30
-1.155〜-1.505 0(  0%) 0 0(  0%) 0
-2.905〜-3.255 0(  0%) 0 0(  0%) 0
-3.255〜-3.605 0(  0%) 0 2(18%) 9
-3.605〜-3.955 0(  0%) 0 0(  0%) 0
-3.955〜-4.305 0(  0%) 0 0(  0%) 1
-4.305〜-4.655 0(  0%) 0 0(  0%) 0
-5.705〜-6.055 0(  0%) 0 0(  0%) 0

特徴度1.645〜0.595の区間に集中してヒントが出現していることがわかる. また,分類手法Aでは特徴度-0.805〜-1.155にヒント有が1個だけ出現しているこ とに対して,分類手法Bでは特徴度-0.805〜-1.155に8個,特徴度-3.255〜-3.605 に2個出現している.

これにより,本手法における名詞の特徴度を用いた分類手法Aの方が,特徴度が 高い範囲に集中してヒントが出現していることがわかる.

次に,「若狭湾」のブログ記事における集計結果のヒストグラムをそれぞれ図 6.56.6に示す.

図 6.5: 分類手法Aにおける名詞の特徴度とヒントの出現数の関係(若狭湾)
図 6.6: 分類手法Bにおける名詞の特徴度とヒントの出現数の関係(若狭湾)
\includegraphics[width=110mm]{fig/wakasa_histogram1.eps}

\includegraphics[width=110mm]{fig/wakasa_histogram2.eps}

6.5,6.6では,以下の 条件でヒストグラムを作成した.

6.5,6.6を見ると,特徴 度が高い範囲にヒントの出現数が多いことがわかる.ここで,各特徴度区間にお ける具体的なヒントの出現数を表6.3に示す.

表 6.3: 名詞の特徴度におけるヒントの出現数(若狭湾)
  (a)分類手法A (b)分類手法B
特徴度区間 ヒント有 ヒント無 ヒント有 ヒント無
  [個](%) [個] [個](%) [個]
1.590〜 1.240 72(26%) 209 293(19%) 1233
1.240〜 0.890 166(20%) 683 183(16%) 967
0.890〜 0.540 9(21%) 33 323(19%) 1409
0.540〜 0.190 2(  8%) 22 67(12%) 474
0.190〜-0.160 0(  0%) 0 0(  0%) 0
-0.160〜-0.510 0(  0%) 3 4(  6%) 60
-0.510〜-0.860 0(  0%) 0 1(20%) 4
-0.860〜-1.210 0(  0%) 0 1(17%) 5
-1.210〜-1.560 0(  0%) 0 0(  0%) 0
-5.760〜-6.110 0(  0%) 0 0(  0%) 0

6.3の分類手法Aにおいて,特徴度1.240〜0.890の 区間に,突出してヒント数が多い.これは,特徴度1.590〜1.240における名詞の 数が``7''に対して,特徴度1.240〜0.890における名詞の数が``54''と,特徴度 区間内の名詞数が多いため,ブログ文数が多くなるからだと考えられる.

また,分類手法Aでは特徴度が負の場合はヒント有りが出現していないことに対 して,分類手法Bでは特徴度が負の場合にもヒント有りが出現している.これに より,江ノ島海岸の場合と同様に,分類手法Aの方が,特徴度が高い範囲に集中 してヒントが出現していることがわかる.

次に,「三陸海岸」のブログ記事における集計結果のヒストグラムをそれぞれ図 6.76.8に示す.

図 6.7: 分類手法Aにおける名詞の特徴度とヒントの出現数の関係(三陸海岸)
図 6.8: 分類手法Bにおける名詞の特徴度とヒントの出現数の関係(三陸海岸)
\includegraphics[width=110mm]{fig/sanriku_histogram1.eps}

\includegraphics[width=110mm]{fig/sanriku_histogram2.eps}

6.7,6.8では,以下の 条件でヒストグラムを作成した.

6.7,6.8を見ると,特 徴度が高いところにヒントの出現数が集中していることがわかる.ここで,各特 徴度区間における具体的なヒントの出現数を表6.4 に示す.

表 6.4: 名詞の特徴度におけるヒントの出現数(三陸海岸)
  (a)分類手法A (b)分類手法B
特徴度区間 ヒント有 ヒント無 ヒント有 ヒント無
  [個](%) [個] [個](%) [個]
1.591〜 1.241 36(  9%) 360 195(  8%) 2379
1.241〜 0.891 69(12%) 518 178(10%) 1673
0.891〜 0.541 31(  8%) 373 112(  7%) 1579
0.541〜 0.191 3(  3%) 101 9(  4%) 217
0.191〜-0.159 0(  0%) 0 0(  0%) 0
-0.159〜-0.509 0(  0%) 4 2(25%) 6
-0.509〜-0.859 0(  0%) 0 0(  0%) 2
-0.859〜-1.209 0(  0%) 1 0(  0%) 1
-1.209〜-1.559 0(  0%) 0 0(  0%) 0
-5.759〜-6.109 0(  0%) 0 0(  0%) 0

若狭湾の場合と同様に,分類手法Aでは特徴度が負の場合ヒント有りは出現して いないが,分類手法Bでは特徴度が負の場合にヒント有りがわずかながら出現し ている.


next up previous contents
次へ: 考察 上へ: 分類の評価 戻る: 比較する分類手法   目次
平成23年3月1日