next up previous contents
次へ: 8状態Ergodic HMMの特徴 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: 文献目録   目次

品詞の出現頻度

この節では 第9.2章において使用した言語データベースの品詞の出現頻度をまとめた。

この実験では、データベースの8000文を奇数番目の文のsetと偶数番目の文のsetと に分け、さらにそれぞれ先頭から1000文のset、先頭から2000文のset、4000文 のsetに分けている。奇数番目のset3種類をそれぞれ odd1000, odd2000, odd4000、偶数番目のsetをeven1000, even2000, even4000と名づけ使用している。


表 A.1: 品詞別出現頻度(odd1000)
順位 品詞名 出現数 割合(%) 一文当たり出現頻度
1 普通名詞 1915 14.40 1.915
2 助動詞 1900 14.29 1.900
3 格助詞 1651 12.41 1.651
4 本動詞 1028 7.73 1.028
5 間投詞 912 6.86 0.912
6 接続助詞 780 5.87 0.780
7 補助動詞 596 4.48 0.596
8 感動詞 552 4.15 0.552
9 終助詞 514 3.86 0.514
10 副詞 512 3.85 0.512


表 A.2: 品詞別出現頻度(odd2000)
順位 品詞名 出現数 割合(%) 一文当たり出現頻度
1 普通名詞 2937 14.17 1.468
2 助動詞 2878 13.88 1.439
3 格助詞 2586 12.47 1.293
4 本動詞 1672 8.07 0.836
5 間投詞 1473 7.11 0.737
6 感動詞 1307 6.30 0.653
7 接続助詞 1208 5.83 0.604
8 補助動詞 858 4.14 0.429
9 副詞 775 3.74 0.388
10 終助詞 712 3.43 0.356


表 A.3: 品詞別出現頻度(odd4000)
順位 品詞名 出現数 割合(%) 一文当たり出現頻度
1 普通名詞 8590 14.98 2.147
2 格助詞 7832 13.66 1.958
3 助動詞 7778 13.56 1.944
4 本動詞 4886 8.52 1.222
5 間投詞 4404 7.68 1.101
6 接続助詞 3813 6.65 0.953
7 補助動詞 2849 4.97 0.712
8 副詞 2065 3.60 0.516
9 感動詞 1997 3.48 0.499
10 終助詞 1586 2.77 0.397


表 A.4: 品詞別出現頻度(even1000)
順位 品詞名 出現数 割合(%) 一文当たり出現頻度
1 普通名詞 2089 15.11 2.089
2 助動詞 1989 14.39 1.989
3 格助詞 1819 13.16 1.819
4 本動詞 1105 7.99 1.105
5 間投詞 938 6.79 0.938
6 接続助詞 816 5.90 0.816
7 補助動詞 646 4.67 0.646
8 感動詞 509 3.68 0.509
9 副詞 503 3.64 0.503
10 終助詞 463 3.35 0.463


表 A.5: 品詞別出現頻度(even2000)
順位 品詞名 出現数 割合(%) 一文当たり出現頻度
1 助動詞 3008 14.25 1.504
2 普通名詞 3004 14.23 1.502
3 格助詞 2662 12.61 1.331
4 本動詞 1756 8.32 0.878
5 間投詞 1473 6.98 0.737
6 接続助詞 1258 5.96 0.629
7 感動詞 1237 5.86 0.619
8 補助動詞 913 4.32 0.457
9 副詞 780 3.69 0.390
10 終助詞 664 3.14 0.332


表 A.6: 品詞別出現頻度(even4000)
順位 品詞名 出現数 割合(%) 一文当たり出現頻度
1 普通名詞 8424 14.82 2.106
2 助動詞 7948 13.99 1.987
3 格助詞 7744 13.63 1.936
4 本動詞 4932 8.68 1.233
5 間投詞 4281 7.53 1.070
6 接続助詞 3723 6.55 0.931
7 補助動詞 2835 4.99 0.709
8 副詞 2072 3.65 0.518
9 感動詞 1973 3.47 0.493
10 終助詞 1547 2.72 0.387


表 A.7: 文構成単語数odd
  odd1000 odd2000 odd4000
文の単語数 頻度 (%) 頻度 (%) 頻度 (%)
1 127 12.70 399 19.95 610 15.25
2 18 1.80 86 4.30 140 3.50
3 77 7.70 125 6.25 206 5.15
4 152 15.20 222 11.10 356 8.90
5 52 5.20 92 4.60 190 4.75
1〜 10 570 57.00 1273 63.65 2136 53.40
11〜 20 201 20.10 453 22.65 901 22.53
21〜 30 113 11.30 153 7.65 449 11.22
31〜 40 62 6.20 66 3.30 252 6.30
41〜 50 30 3.00 30 1.50 111 2.77
51〜 130 24 2.40 25 1.25 148 3.70


表 A.8: 文構成単語数even
  even1000 even2000 even4000
文の単語数 頻度 (%) 頻度 (%) 頻度 (%)
1 107 10.70 375 18.75 547 13.68
2 15 1.50 79 3.95 131 3.27
3 75 7.50 134 6.70 259 6.47
4 139 13.90 210 10.50 362 9.05
5 51 5.10 87 4.35 172 4.30
1〜 10 526 52.60 1239 61.95 2107 52.68
11〜 20 232 23.20 482 24.10 943 23.57
21〜 30 128 12.80 160 8.00 454 11.35
31〜 40 64 6.40 66 3.30 250 6.25
41〜 50 30 3.00 32 1.60 116 2.90
51〜130 20 2.00 21 1.05 130 4.25


next up previous contents
次へ: 8状態Ergodic HMMの特徴 上へ: 確率的言語モデルによる自由発話認識に関する研究 戻る: 文献目録   目次
Jin'ichi Murakami 平成13年1月5日