next up previous contents
次へ: 目次 上へ: thesis_full 戻る: thesis_full   目次

概要

ブログ記事から旅行時の行動を分析する研究が,行われている.その中に,「どこに何があるか」を収集するタスクがある.なぜならば,場所とそこにある存在物がわかるだけでも観光分析にとって有益だからである.

用言パターン[1]を用いると,1つの文から場所と存在物を解析できる.しかし,ブログでは2文に分けて,場所と存在物を述べることがあるという問題がある.2文の内,1文目で解析できる情報と2文目で解析できる情報を単にまとめてしまっては,誤りを含むからである.そこで,本研究では,格情報および動詞の情報を持つパターンを対で用いて,場所と存在物の解析を行う手法を提案する.

具体的には,まず,ブログ文から連続する2つの動詞述語文の対を複数抽出し,場所と存在物を含むような対から,1文目のパターン(FP)と2文目のパターン(SP)で構成される,場所と存在物抽出用のパターン対を作成する.作成したパターン対59ペアでパターン辞書を構築し,日本語語彙大系における用言意味属性を利用して,パターン対の用言部分の網羅性を拡張する.

パターン辞書を用いた手法を評価するため,テスト用の2文対47件に人手で正解データを作成する.答えが出るべきか・出ないべきかに着目し,テスト用の2文対47件の内,正解が出るべき2文対26件にはそれぞれ1つ以上の正解データ(計35個)を付与し,正解が出ないべき2文対21件には空のデータを正解として付与する.次に,テスト用の2文対を対象に,3つの手法で抽出実験を行う.1つ目の手法は,構築したパターン辞書を用いて場所と存在物を抽出する手法である.2つ目の手法は,パターン対を分解し,FPとSPの全ての組み合わせで再構成したパターン辞書を用いて場所と存在物を抽出する手法である.3つ目の手法は,意味属性を利用して場所と存在物の全ての組み合わせを得る手法である.

3つの手法の実験結果について,抽出結果と正解データのF値で手法の評価を行う.

抽出実験の結果,手法1では,F値が0.54となった.手法2では,0.65となった.手法3では,0.58となった.手法2でもっともF値が高くなっており,パターン辞書を用いない手法よりわずかに精度が向上した.今後の課題は,パターン辞書の拡充と見直しにより,抽出精度をより向上させることである.


平成25年3月21日