次へ: コーパスの例
上へ: コーパスの作成
戻る: コーパスの作成
目次
-
- 手順1:
- ブログから「ドクターイエロー」に関する記事を抽出する.
抽出する記事の条件は,記事内に存在物と場所がそれぞれ1表現以上あるもの,および,
1つ以上存在物が存在する場所があることとする.
- 手順2:
- 記事内の文をCaboChaで構文解析し,単語境界,品詞,固有表現タグ,係り先の情報を得る.
- 手順3:
- 存在物および場所の表現にIOB2タグを人手で付ける.
本研究では存在物と場所の定義を以下のようにする.
-
- 存在物:
- 車両(ドクターイエロー,新幹線など),食品(駅弁など),
展示品(銅像,仏像など),おみやげのような存在する具体物.
- 場所:
- 固有表現タグLOCATIONタグがあるもの(地名),さらに,自然のもの(山,川など),
建築物(駅,道路,橋など)よのうな移動することがない存在物.
場所にタグがつくものは存在物のタグを付与していない.
- 手順4:
- 存在物にIDを付与し,存在する場所に存在物IDを「存在物リンク」として付与する.
1つの場所に複数の存在物がある場合,複数の存在物IDを付与する.
存在物IDは存在物タグのB,存在物リンクは場所タグのBが付与された単語に付与する.
存在物IDは記事単位でユニークとする.
ただし,存在する場所にも制限を設ける.今回の目的は観光支援であるため,
存在物を買うことができる,鑑賞することができる,食べることができるなど,
観光に有益な場所のみを存在する場所とする.
例えば,「鳥取に帰って来ました。名古屋駅で赤福を買ったので,今から食べます。」という記事がある.
赤福は鳥取に存在しているが,鳥取で赤福が買えるかどうかはこの記事からわからない.
この場合,赤福の存在物リンクが付与されるのは名古屋駅のみとなる.
平成26年3月5日