next up previous contents
次へ: 用いるタグセット 上へ: 構築方法 戻る: 構築方法   目次

手順

3.1における手順の流れを説明する.
手順1:
用意したブログ文から,連続する単文(動詞述語に限る)の対を自動で抽出する.
手順2:
抽出した単文対から,場所と存在物を含む単文対を,自動で選出する.
手順3:
選出した単文対に対して,存在物,場所および重要表現の注釈を人手で付与し,不適切な単文対を取り除く.こうして,タグ付きの単文対を得る.
手順4:
タグ付き単文対から,場所・存在物の分析用のパターン対を自動で作成する.

ただし,手順2では,係り受け解析ツールCaboCha[2]による出力で,LOCATIONタグが付与されている名詞,または,CaboChaの意味属性に「地域」が付与されている名詞を,場所とする.日本語語彙大系で一般名詞意味属性が具体物である名詞を,存在物とする.また,パターン対に格を取り込むため,場所と存在物はそれぞれ,助詞の直前にある名詞のみを扱う.

CaboChaの出力例を図3.2に示す.「門司」という単語にLOCATIONタグ,および,意味属性「地域」が付与されているため,「門司」を場所として扱う.

図: CaboChaの出力例
\begin{figure}\begin{center}
\begin{tabular}{l}\hline
門司へ行った。 \\
* 0 1D ...
...*,*,*,。,。,。~~~~~~~~O \\
EOS \\ \hline
\end{tabular}
\end{center}\end{figure}


平成25年3月21日