next up previous contents
Next: 場所と存在物の抽出結果 Up: 場所と存在物の情報抽出 Previous: 場所と存在物の情報抽出   目次

パターン辞書の作成と拡張

パターン辞書の作成の手順を以下に示す.
手順1
用意したブログ文から,連続する単文(動詞述語に限る)の対を自動で抽出する.
手順2
抽出した単文対から,場所と存在物を含む単文対を,自動で選出する.
手順3
選出した単文対に対して,存在物,場所および重要表現の注釈を人手で付与し,不適切な単文対を取り除く.こうして,タグ付きの単文対を得る.
手順4
タグ付き単文対から,場所・存在物の分析用のパターン対を自動で作成する.

ただし,手順2では,係り受け解析ツールCaboChaによる出力で,Locationタグが付与されている名詞,または,CaboCha意味属性に「地域」が付与されている名詞を場所とする. 日本語語彙大系で一般名詞意味属性が具体物である名詞を,存在物とする.

3つのブログサイトから2008年から2009年までのうち約22ヶ月分のブログ記事を取得して,パターン辞書の作成を行った.

例文「週末に門司までドライブに行ってきました。フク丼を食べてきました。」の2文から作成したパターン対を,例として以下に示す.

FP
/N1 まで/' 行く'[MDLC2]。Location:N1
SP
/N1 を/' 食べる'[MDLC2]。Object:N1
パターン対は連続する2文において,1文目がFPに適合して,2文目がSPに適合するならば,対が適合したとみなす.

作成した各パターンの動詞部分を,日本語語彙大系の用言意味属性が同一である単語と置き換えて,パターンを追加し,パターン辞書を拡張した.



root 2015-03-17