言葉を調べるには,実際に使われている生のテキストデータを大量に集めることが必要である .入手が可能な生データとして,WWWデータがある.WWWは規模も大きく大量のテ キストデー タが収集できる.WWWに書き込むことは制限が少なく,誰でも,何でも書けるこ とから人間的な言葉が存在する.テキストデータの収集方法は,関根ら[1]により示され ている.
本研究ではWWWテキストを収集し,単語・意味属性の出現頻度から言語処理研究用 データとしての利用可能性を調査した.特に,情緒研究への応用を考える.
調査方法としては,まず収集してきたWWWテキストから日本語テキストを抽出す る.次に,抽出した日本語テキストを形態素解析できるように編集し,解析を行 う.そして,形態素解析で付与された意味属性より,用言・名詞の頻度を計算す る.日本語単文の意味分類体系を基準に意味的な用言・名詞のスパースさを求め網羅性を確認 する.最後に情緒表現の出現頻度を調査する.
調査の結果,8,400サイトからダウンロードし,4,116サイトから日本語抽出できた. 形態素解析の結果は入力文数は14,522,344文で,出力文数は11,793,675文だった. 出現頻度より用言のスパースさをもとめたところ,頻度の基準を100とし 95.5%が基準を越え,日本語単文の意味分類体系をカバーした.情緒表現についても出現を確 認した.
よって,日本語単文の意味分類体系[2]を基準に網羅性が高いこととともに,言語処理研究用デー タとしての利用可能性があることがわかった.