WWWテキストの収集方法としては,関根らの研究[1]で示されている. 内容の信頼性から検索サイトYahoo!Japanを利用し,カテゴ ライズされているページを出発点としてWWWテキストを収集する.文書のみが目 的のため,対象ファイルはhtml,htm,txtの拡張子のついたページとする.
本研究では,関根らの研究にならいテキスト収集を行い,WWWテキストの言語処理研 究用データ,主に情緒研究データとしての利用可能性を調査する.利用可能性は単語の出現頻度による ため,日本語テキストを形態素解析し,単語・意味属性の出現頻度を調査する.
具体的な方法として,ダウンロードしたWWWテキストから日本語部分を抽出し, 形態素解析を行う.形態素解析で付与された意味属性より,用言・名詞の頻度計 算をする.出現頻度より,日本語単文の意味分類体系を基準に意味的なスパー スさを求め網羅性を確認.最後に情緒表現の出現頻度を確認.
調査結果として,用言・名詞のスパースさは,日本語単文の意味分類体系[2]を基準に網羅性が高 いことがわかった.情緒表現の出現も確認された.
よって,本研究ではWWWテキストの単語・意味属性の出現頻度調査より,WWWデー タが言語処理研究用としての利用可能性があることを確認した.
本稿は以下の章で構成されている. 2章では研究の背景と目的,3章ではWWWからのテキスト収集と解析につい て説明する. 4章では単語の出現頻度数の調査,5章では名詞・ 用言の意味属性出現頻度について説明する. 6章では, 情緒表現の出現頻度につ いて述べる.