ここで,「名詞,固有名詞,組織」および「名詞,固有名詞,人名」に分類された固有名詞は,各都道府県ごとの共起語にふさわしくないと判断し,抽出対象としない. 理由は, 「名詞,固有名詞,組織」はアルファベットの羅列がこれに分類されることが多く, 「名詞,固有名詞,人名」は人名に用いられる固有名詞がこれに分類されるからである. よって,アルファベットの羅列や人名に用いられる固有名詞を共起語として都道府県コーパスに登録しないために, 「名詞,固有名詞,組織」および「名詞,固有名詞,人名」は抽出対象としない.
各都道府県ごとのWebページから抽出した固有名詞を,それぞれ都道府県ごとにコーパスとしてテキストファイルに登録した. つまり,都道府県コーパスは,47個のコーパスから構成される.