ここで,存在物や存在場所の抽出は固有表現抽出[2]の一種と考えられる. 存在情報の抽出と固有表現抽出の差は, 一般名詞による存在物や場所の表現を抽出しなければならないこと,および, 存在物と存在場所の対応を検出しなければならないことである. そこで本研究では,柔軟性を持った手法としてSVM[3]を用いて, 文章から存在物と場所の抽出,および,それらの対応を検出することを提案する.
具体的には,まず,タグ付きコーパスを作成する. 固有表現抽出のタスクにはタグ付きのコーパスが必要になる. ブログ記事から「ドクターイエロー」に関係するブログ記事を抽出し,構文解析を行う. 解析結果に,存在物および場所の表現にIOB2タグ[4]を人手で付ける. また,存在物に ID を付与し,存在する場所に存在物 ID を「存在物リンク」として付与する. 抽出は工藤らの手法を利用する.
次に,存在物と場所の対応を検出する. ベースライン手法は存在物と場所の単語間の距離が一番近いものを採択する. 提案手法は存在物一つに対して記事内全ての場所とそれぞれペアにし、 各ペアの存在物と場所が対応しているかSVMに判定させる手法である. 素性は13種類あり,組み合わせによって16種類の実験を行う.
2つの手法の実験結果について,抽出結果と正解データのF値で手法の評価を行う. 評価方法には,SVMのスコアが正値かつ最大値のペアを推定結果とする方法,および, 正値のペアをすべて推定結果とする方法を設ける . リンク単位での対応検出の結果, ベースライン手法では,F値が0.30となった. 提案手法では,のF値は0.24,は0.52となった. 「ドクターイエロー」に関する対応検出の結果, ベースライン手法では,F値が0.67となった. 提案手法では,のF値は0.56,は0.60となった. ベースライン手法のF値を越えることはでなかった.
コーパス依存性を確認するため,コーパスをドクターイエローコーパスから お土産コーパスに変更して実験を行った. 「赤福」に関する対応検出の結果, ベースライン手法では,F値が0.61となった. 提案手法では,のF値は0.61,は0.65となり, F値の向上が確認できた.
さらに,一般的な方法と比較を行う. 普段,存在性情報を得る時は本やインターネットを利用する. そこで,Google検索の結果と提案手法の比較を行った. ドクターイエローコーパスの場合, Google検索で得ることができた存在する場所は駅名がほとんどであった. しかし,提案手法では駅名の他にも,富士川や中里などの存在する場所も得ることができた.
お土産コーパスの実験でF値の向上を確認できたこと, Google検索との比較でGoogle検索で得られない場所を得られたことから, 提案手法に対する一定の評価を得ることができたと考える. 今後の課題は,場所から存在物の対応検出を行うこと,および, 時間の存在する時間(いつ見ることができるか)の情報抽出を行うことである.