next up previous contents
次へ: コーパスの例 上へ: コーパスの作成 戻る: コーパスの作成   目次

手順

手順1:
ブログから「ドクターイエロー」に関する記事を抽出する.
抽出する記事の条件は,記事内に存在物と場所がそれぞれ1表現以上あるもの,および, 1つ以上存在物が存在する場所があることとする.
手順2:
記事内の文をCaboChaで構文解析し,単語境界,品詞,固有表現タグ,係り先の情報を得る.
手順3:
存在物および場所の表現にIOB2タグを人手で付ける.
本研究では存在物と場所の定義を以下のようにする.
存在物:
車両(ドクターイエロー,新幹線など),食品(駅弁など), 展示品(銅像,仏像など),おみやげのような存在する具体物.
場所:
固有表現タグLOCATIONタグがあるもの(地名),さらに,自然のもの(山,川など), 建築物(駅,道路,橋など)よのうな移動することがない存在物.
場所にタグがつくものは存在物のタグを付与していない.
手順4:
存在物にIDを付与し,存在する場所に存在物IDを「存在物リンク」として付与する. 1つの場所に複数の存在物がある場合,複数の存在物IDを付与する. 存在物IDは存在物タグのB,存在物リンクは場所タグのBが付与された単語に付与する. 存在物IDは記事単位でユニークとする.

ただし,存在する場所にも制限を設ける.今回の目的は観光支援であるため, 存在物を買うことができる,鑑賞することができる,食べることができるなど, 観光に有益な場所のみを存在する場所とする.

例えば,「鳥取に帰って来ました。名古屋駅で赤福を買ったので,今から食べます。」という記事がある. 赤福は鳥取に存在しているが,鳥取で赤福が買えるかどうかはこの記事からわからない. この場合,赤福の存在物リンクが付与されるのは名古屋駅のみとなる.



平成26年3月5日