next up previous contents
次へ: 意味コード出現頻度 上へ: 意味属性頻度からのスパースさ調査 戻る: 名詞のスパースさ調査結果   目次

スパースさについての考察

用言・名詞ともに閾値100ではカバー率に差がないことから,少ないデータ量で も,必要量が100ぐらいならかなりの網羅性が得られることがわかる.全体的に はカバー率も高く,十分な網羅性が得られていると考えられる(表8).コンピュー タに関しては用言では閾値100と1,000では30%の差があり,低下が著しい.デー タ量の差 とも考えられるが,コンピュータの分野は最近になって大きくでてきたことから, 意味コード割り当てられていない未知語が多く使われているのではないかと考え られる.その分,対象となる単語が減少しているのではないかと思う.閾値 1,000ではデータ量の減少の伴い,カバー率が減少すると予想していた.しかし, 用言では社会科学が予想より低く,芸術は予想よりも高かった. 名詞については, 教育が予想より低く,趣味が予想より高かった.予想より低かったものの原因と しては,社会科学と教育は社会や子どもに悪影響を及ぼすようなことがないよう, 言葉を選んでいるのではないかと考えられる.

次に,網羅性についての評価を行う.各閾値でのカバー率の平均は表8のようになった.


表 8: カバー率の平均
  用言 名詞
閾値100 95.5% 96.3%
閾値500 86.6% 90.3%
閾値1,000 77.4% 84.3%

用言・名詞ともに高いカバー率となった.1単語しか割り当てられていない分類 があり,必然的に意味コード頻度は落ちる.それを除けば,閾値100ではほぼカ バー率100%といえる.閾値1,000にしても80%程度のカバー率となり,日本語単 文の意味分類体系を基準に高い網羅性であることがわかる.コンピュータの分野 において,意味分類体系が強化されれば,カバー率はもっと高くなるのではない かと思う.

結果より,日本語単文の意味分類体系を基準に高い網羅性であることがわかった. よって,WWWテキストの意味的偏りは少なく,幅の広い用言・名詞が含まれてい ると考えられる.



平成18年5月30日