next up previous contents
次へ: 研究背景と目的 上へ: honron 戻る: 表一覧   目次

はじめに

言葉の性質を調べるには,広く一般に使われている言葉を収集する必要がある. 自由に入手できる大規模データの1つとして,WWWデータがある.書き込みの自由 があり,より人間的な言葉が多く入手できる.しかし,言語処理研 究用データとして利用する場合,WWWデータの言葉の偏り,出現頻度が問題である.

WWWテキストの収集方法としては,関根らの研究[1]で示されている. 内容の信頼性から検索サイトYahoo!Japanを利用し,カテゴ ライズされているページを出発点としてWWWテキストを収集する.文書のみが目 的のため,対象ファイルはhtml,htm,txtの拡張子のついたページとする.

本研究では,関根らの研究にならいテキスト収集を行い,WWWテキストの言語処理研 究用データ,主に情緒研究データとしての利用可能性を調査する.利用可能性は単語の出現頻度による ため,日本語テキストを形態素解析し,単語・意味属性の出現頻度を調査する.

具体的な方法として,ダウンロードしたWWWテキストから日本語部分を抽出し, 形態素解析を行う.形態素解析で付与された意味属性より,用言・名詞の頻度計 算をする.出現頻度より,日本語単文の意味分類体系を基準に意味的なスパー スさを求め網羅性を確認.最後に情緒表現の出現頻度を確認.

調査結果として,用言・名詞のスパースさは,日本語単文の意味分類体系[2]を基準に網羅性が高 いことがわかった.情緒表現の出現も確認された.

よって,本研究ではWWWテキストの単語・意味属性の出現頻度調査より,WWWデー タが言語処理研究用としての利用可能性があることを確認した.

本稿は以下の章で構成されている. 2章では研究の背景と目的,3章ではWWWからのテキスト収集と解析につい て説明する. 4章では単語の出現頻度数の調査,5章では名詞・ 用言の意味属性出現頻度について説明する. 6章では, 情緒表現の出現頻度につ いて述べる.



平成18年5月30日