次へ: 目次 上へ: honron 戻る: honron 目次

概要

言葉を調べるには，実際に使われている生のテキストデータを大量に集めることが必要である．入手が可能な生データとして，WWWデータがある．WWWは規模も大きく大量のテキストデータが収集できる．WWWに書き込むことは制限が少なく，誰でも，何でも書けることから人間的な言葉が存在する．テキストデータの収集方法は，関根ら[1]により示されている．

本研究ではWWWテキストを収集し，単語・意味属性の出現頻度から言語処理研究用データとしての利用可能性を調査した．特に，情緒研究への応用を考える．

調査方法としては，まず収集してきたWWWテキストから日本語テキストを抽出する．次に，抽出した日本語テキストを形態素解析できるように編集し，解析を行う．そして，形態素解析で付与された意味属性より，用言・名詞の頻度を計算する．日本語単文の意味分類体系を基準に意味的な用言・名詞のスパースさを求め網羅性を確認する．最後に情緒表現の出現頻度を調査する．

調査の結果，8,400サイトからダウンロードし，4,116サイトから日本語抽出できた．形態素解析の結果は入力文数は14,522,344文で，出力文数は11,793,675文だった．出現頻度より用言のスパースさをもとめたところ，頻度の基準を100とし 95.5%が基準を越え，日本語単文の意味分類体系をカバーした．情緒表現についても出現を確認した．

よって，日本語単文の意味分類体系[2]を基準に網羅性が高いこととともに，言語処理研究用データとしての利用可能性があることがわかった．

平成18年5月30日