次へ: 研究背景と目的 上へ: honron 戻る: 表一覧目次

はじめに

言葉の性質を調べるには，広く一般に使われている言葉を収集する必要がある．自由に入手できる大規模データの1つとして，WWWデータがある．書き込みの自由があり，より人間的な言葉が多く入手できる．しかし，言語処理研究用データとして利用する場合，WWWデータの言葉の偏り，出現頻度が問題である．

WWWテキストの収集方法としては，関根らの研究[1]で示されている．内容の信頼性から検索サイトYahoo!Japanを利用し，カテゴライズされているページを出発点としてWWWテキストを収集する．文書のみが目的のため，対象ファイルはhtml，htm，txtの拡張子のついたページとする．

本研究では，関根らの研究にならいテキスト収集を行い，WWWテキストの言語処理研究用データ，主に情緒研究データとしての利用可能性を調査する．利用可能性は単語の出現頻度によるため，日本語テキストを形態素解析し，単語・意味属性の出現頻度を調査する．

具体的な方法として，ダウンロードしたWWWテキストから日本語部分を抽出し，形態素解析を行う．形態素解析で付与された意味属性より，用言・名詞の頻度計算をする．出現頻度より，日本語単文の意味分類体系を基準に意味的なスパースさを求め網羅性を確認．最後に情緒表現の出現頻度を確認．

調査結果として，用言・名詞のスパースさは，日本語単文の意味分類体系[2]を基準に網羅性が高いことがわかった．情緒表現の出現も確認された．

よって，本研究ではWWWテキストの単語・意味属性の出現頻度調査より，WWWデータが言語処理研究用としての利用可能性があることを確認した．

本稿は以下の章で構成されている. 2章では研究の背景と目的，3章ではWWWからのテキスト収集と解析について説明する. 4章では単語の出現頻度数の調査，5章では名詞・用言の意味属性出現頻度について説明する. 6章では, 情緒表現の出現頻度について述べる.

平成18年5月30日