next up previous contents
Next: IOBタグの推定と抽出 Up: 存在物と場所の対応検出 Previous: 存在物と場所の対応検出   目次

コーパス作成

手順1
ブログから「ドクターイエロー」に関する記事を抽出する.
手順2
記事内の文をCaboCha で構文解析し,単語,品詞,固有表現タグ,係り先の情報を得る.
手順3
存在物および場所の表現にIOB タグを人手で付ける.
手順4
存在物にID を付与し,存在する場所に存在物ID を「存在物リンク」として付与する.1 つの場所に複数の存在物がある場合,複数の存在物ID を付与する.存在物ID は記事単位でユニークとする.

例文「名古屋駅でN700 系とドクターイエローを撮影しました」に注釈付けした例を表2.1に示す.


表 2.2: 注釈付けの例
単語 存在タグ 存在物ID 場所タグ 存在物リンク
名古屋 O   B 1;2
O   I  
O   O  
N B 1 O  
7 I   O  
0 I   O  
0 I   O  
I   O  
O   O  
ドクター B 2 O  
イエロー I   O  
O   O  
撮影 O   O  
O   O  
まし O   O  
O   O  

2013年2月~4月のブログからドクターイエローに関係する記事は84記事抽出された. 文数は1,507,単語数は24,499となり,存在物についてのタグは,Bが566,Iが983で,場所についてのタグはBが458,Iが421になった. 存在物リンクの付与された場所は345ヶ所であった. 存在物と場所のリンク数は2,240であった.対応する場所の無い存在物は41件であった.


next up previous contents
Next: IOBタグの推定と抽出 Up: 存在物と場所の対応検出 Previous: 存在物と場所の対応検出   目次
root 2015-03-17