next up previous contents
次へ: 作成結果 上へ: 都道府県コーパス 戻る: 都道府県コーパス   目次

作成方法

都道府県コーパスを作成するために,まずWikipedia[5]における各都道府県について記述されたWebページを収集する. 次に,収集したWebページからMeCab[6]を用いて形態素解析を行い,固有名詞を抽出して作成する. 具体的には,形態素解析において「名詞,固有名詞,地域」および「名詞,固有名詞,一般」と分類された単語のみを抽出する.

ここで,「名詞,固有名詞,組織」および「名詞,固有名詞,人名」に分類された固有名詞は,各都道府県ごとの共起語にふさわしくないと判断し,抽出対象としない. 理由は, 「名詞,固有名詞,組織」はアルファベットの羅列がこれに分類されることが多く, 「名詞,固有名詞,人名」は人名に用いられる固有名詞がこれに分類されるからである. よって,アルファベットの羅列や人名に用いられる固有名詞を共起語として都道府県コーパスに登録しないために, 「名詞,固有名詞,組織」および「名詞,固有名詞,人名」は抽出対象としない.

各都道府県ごとのWebページから抽出した固有名詞を,それぞれ都道府県ごとにコーパスとしてテキストファイルに登録した. つまり,都道府県コーパスは,47個のコーパスから構成される.



平成23年3月3日