next up previous contents
Next: 類似度を用いた情報抽出の結果 Up: 実験結果 Previous: 実験結果   目次

クラスタリングを用いた情報抽出の結果

Wikipediaに関する城ページにおいてmecabで分かち書きを行ったものを入力として,1,000個のクラスタを作るクラスタリングを行った.クラスタリング結果の一部を表5.1に示す.表5.1の左の数字はクラスタ番号を示しており,右の単語はクラスタ番号に属する単語である.半数以上の城ページでクラスタ内の単語が検出されたクラスタを重要項目の候補とし,そこから人手で重要項目を選んだ.


表 5.1: クラスタリング結果
435 筑前
435 長門
435 那珂
435 能登
435 両国
436 一存
436 家臣
436 虎丸
436 高屋
436 十河
437 一向
437 一乗寺城
437 越中
437 加賀
437 吉江
437 拠る
.....

人手で選んだ重要項目を表5.2に示す.重要項目のクラスタ内の単語の一部を表5.3に示す.

先行研究では重要項目が4個であったのに対して,提案手法は重要項目を20個に増やすことができた.


表 5.2: 重要項目名
戦い状況,城の造り,交通路,堀の種類
塀の種類,策略,天守,敗戦
豪族,血筋,天皇,改築
防壁,寺,神社,物流
統治,藩,砦,権力


表 5.3: 重要項目のクラスタ内の単語例
6#6



表 5.4: 重要項目の個数
手法 重要項目の個数  
上位下位知識(先行手法) 4  
クラスタリング(提案手法) 20  

次に情報抽出の性能を調べる.20個のクラスタのうちから選んだ表5.5,表5.6,表5.7の3つのクラスタを評価に利用した.このクラスタ内の単語が各欄に正しいものが1つでも得られて出力されれば正しく抽出したとする.

表 5.5: クラスタ401
おびき出し,ひい,引き返し,援軍 ,炎上 ,加わっ ,壊滅 ,開城
勧告,陥落,頑強,奇襲,喫し,救援,窮地,屈服,迎え撃つ ,向かわ
抗戦,攻める,攻め寄せ,攻め落とす,惨敗,持ちこたえ,銃撃,出撃
出陣,少数,焼か,焼き討ち,焼き払い,焼き払わ,申し入れ,進軍
占拠,全滅,阻止,総崩れ,遭い,態勢,退け,退却,大敗,着陣,駐留
直ぐ,抵抗,撤退,転戦,逃走,派兵,破っ,敗戦,敗走,敗退,敗北
迫り,不完全,伏兵,奮戦,兵糧,放火,防戦,本隊,明け渡し,戻り
夜襲,落ち延びる,落城,篭城


表 5.6: クラスタ407
)]],くろがね,移築,医,一ノ門,円城寺,外丸,外門,官衙,歓会
丸,丸内,祈念,亀甲,喰違,御殿,御門,高麗,三ノ丸,山里,仕切
鐘,政庁,正門,西丸,西大手,西門,前門,総門,大手門,大門,中仕切
中門,長屋門,追廻,追手,天球,土蔵,東丸,東大手,東門,撞堂,内門
二の丸,二ノ,二之,日出,納屋,番所,表門,北御門,北門,本丸,門
門跡,門扉,役所,薬,裏門,蓮池


表 5.7: クラスタ765
ほど近い,ロマンティック,伊勢湾,碓氷,越え,越える,奥大道,往還,押さえ
押さえる,海道,街道,幹線,関所,経路,繋がる,結ぶ,古道,交差,交通
国境,作手,参宮,参詣,山陰,山陽,水上,水陸,瀬戸内,生野,中山道,中道
通ずる,東海道,峠,分岐,並行,便,便利,北国,北陸,要所,要衝,要地
抑える,霊場,連絡

情報抽出に基づき表を作成した結果を表5.8,表5.9に示す.表5.8,表5.9において太字で表記されているものは 正解と判断したものである.また,○と表記されているものはWikipedia内に正解の記載が無く,空欄が正しく抽出されたと判断したものである.

3つのクラスタで1つでも正しく抽出された正解率は0.82 となった.


表 5.8: クラスタリングを使った情報抽出
城名 クラスタ401(戦い状況) クラスタ407(城の造り) クラスタ765(交通関係)
宇和島城   門,大手門,山里,三ノ丸,追手,移築,二ノ,丸,本丸 交通
筑後十五城 抵抗,大敗,篭城,頑強,少数
岡崎城 門,二の丸,大手門,三ノ丸,北門,移築,本丸,丸 海道,東海道,交通
松尾城
リンダーホーフ城   街道
小峯城
高橋城
川田城
長森城 中山道
石神井城 加わっ,進軍,喫し,落城,出撃,惨敗,敗走,戻り,引き返し,放火,救援 大門,門,丸
鴨山城 出陣,破っ 越え,要衝,山陽,瀬戸内
安濃津城
省城
打吹城   土蔵,本丸  
バルモラル城  


表 5.9: クラスタリングを使った情報抽出
城名 クラスタ401(戦い関係) クラスタ407(城の造り) クラスタ765(交通関係)
道本城
荊の城
白雲の城
三田城 落城 門,御門,丸内,大手門,移築,二ノ,番所,土蔵,丸,本丸 結ぶ,要衝
門司城 敗戦,壊滅 門,丸,本丸
下大留城
作山城 落城
溝口城
新屋城 落城  
浦賀城  
幻想水滸伝V 黎明の城
寒河江城 本隊,敗北,撤退,攻め寄せ,退け,救援 薬,門,二の丸,移築,丸内,丸,本丸
鏡島城
河渡城   要衝,中山道
田幡城  

また,表に抽出された単語の正解率も求めた.例えばクラスタ407である「門」が抽出されたとする.この場合wikipediaページ内に「門」と記述されていれば正解とするが,「五右衛門」の中の「門」だけが抽出された場合は不正解としている.また,クラスタリングを行った段階でクラスタ内に関係のない単語が抽出されその関係のない単語が表に抽出された場合は不正解としている.例えば,表 5.6の中の「医」の単語が城ページで出力されたとする.この場合クラスタ407は城の造りに関する単語が集まっている.だが,「医」という単語は城の造りに関係がないことは明白である.「医」のようにクラスタと関係のない単語が出力された場合は不正解とする.単語の正解率を求めた結果,単語の正解率は0.71となった.


表 5.10: 単語の正解率の結果
手法 単語の正解率  
クラスタリング(提案手法) 0.71  


next up previous contents
Next: 類似度を用いた情報抽出の結果 Up: 実験結果 Previous: 実験結果   目次
akano hokuto 2018-03-06