next up previous contents
次へ: 提案手法 上へ: 手法 戻る: 手法   目次

ベースライン手法

ベースライン$B_2$,および,$B_3$の2種類設ける.
$B_2$
注目する存在物から記事の先頭側と末尾側に向けて各単語を調べ, 単語数による距離で最短の所にある場所の表現(Bタグの語)を対応する場所とする.
$B_3$
全てのリンク先を対応する場所とする.

図5.1の記事を例に説明する.下線$E$は存在物を,下線$L$は場所を示す. まず$B_2$の検出の説明する. 存在物$E$に着目する. 文頭側にある場所は$L1$で,$E$$L1$の単語距離は24である. 文末側にある場所は$L2$$L3$である. $L2$の方が$E$との単語区間の距離が短いので, $L2$に着目する. $E$$L2$の単語距離は15である. 文末側の$E$$L1$の単語距離間の方が短いので, 「$E$$L1$に存在する」と検出する.

$B_3$は全てのリンク先を対応するので, 「$E$$L1$$L2$,および,$L3$に存在する」と検出する.

図: 記事の例(単語境界付き)
\begin{figure}\begin{center}
\begin{tabular}{l} \hline
\underline{尼崎}$_{L1}$/..
.../アリ}$_{L3}$/、ウロ/ウロ/と/。/\\
\hline
\end{tabular}
\end{center}\end{figure}



平成26年3月5日