next up previous contents
Next: 情報抽出の失敗例 Up: 実験結果 Previous: 正解がないままでよい箇所の取り出し性能   目次

情報抽出の成功例

Web文書からの情報抽出の成功例について説明する.

[*]は,[*]節の手法によりWikipediaの文書から固有表現抽出に基づく手法を用いて重要情報を抽出して作成した表であり,表[*]の記載欠落箇所はWikipedia内に正解の記載がなく,正しく空欄を抽出したものである. 表[*]において太字で記載してあるものは正解と判断したものである. 表[*]について,この表の記載欠落箇所を補完するために提案手法の[*]節の手法を用いる. 実際に補完ができたものを表[*]に示す. 括弧付きで記載されているものが補完した情報である. ただしこの例で補完されている情報は,出現した記事数の多さが1位のものを示しているのではなく,Web文書から情報抽出をして得られた記事頻度上位1位から5位の単語のうち最初に正解と判断したものである.

Web文書からの情報抽出の成功例として,「浦賀城」を検索エンジンに入力して得られたWeb文書に対し,固有表現抽出に基づく手法を用いて情報抽出を行い,記事頻度上位1位から20位までの単語を表にまとめたものを表[*]に示す. 表において太字で記載してあるものは正解と判断したものである. 表[*]は,表[*]のうち重要項目「組織名」が記載欠落箇所となっていたため,表[*]で補完した重要項目「組織名」の「里見軍」が記事頻度何位であったかを,考察を行うときに分かりやすくするためのものである. ユーザには記事頻度上位1位から5位の単語をまとめた表と,5個の単語がどのような文章に記載されていたかがわかるように,単語が記載されている文章を表とともに提示することにより文章の修正がしやすくなると考える.

「里見軍」が出現した文章の例を以下に示す.「里見軍」は太字で記載している.

[
l]「里見軍」が出現した文章の例 ここは、戦国時代の弘治年三浦半島が房総の里見軍に攻められたため、 北条氏康(後北条氏第代)が築城したらしい浦賀城があった所です

このように正しく記載欠落箇所を補完することができれば,文章修正支援に役立つ.


 
表: 固有表現抽出の表に記載欠落箇所がある例
城名 地名 人名 組織名
浦賀城 浦賀 北条氏康
溝口城 イギリス ピーター・ランスリー


 
表: 固有表現抽出での文章修正支援の成功例
城名 県名 時代 地名
浦賀城 浦賀 北条氏康 (里見軍)
荊の城 イギリス ピーター・ランスリー (荊城チカレプリ撮影会)


表: 浦賀城の組織名 記事頻度上位1位から20位まで
城名 記事頻度順位 組織名 記事数
1 新井 11
2 浦賀城跡 7
3 三崎城 6
4 里見軍 5
5 静岡古城研究会 4
6 浦賀奉行所 4
7 浦賀船渠株式会社 4
8 浦賀行政センター 4
9 八丁堀日本考古学協会年度奈良大会 3
10 日本城郭大系 3
11 新人物往来社 3
12 松坂城&宮山城 城友会 3
13 曲輪跡 3
浦賀城 14 浦賀定海賊衆 3
15 浦賀城址 3
16 EXイン横須賀リサーチパーク 3
17 問い合わせ市民部浦賀行政センター〒横須賀市浦賀丁目 2
18 名所鎌倉研究部カテゴリー鎌倉遺構探索おすすめ寺社鎌倉 2
19 名越坂古墳遺跡安国論寺妙法寺 2
20 万福寺光明寺内藤家墓所小坪坂 2

[*]は,[*]節の手法によりWikipediaの文書から上位下位知識に基づく手法を用いて重要情報を抽出して作成した表であり,表[*]の記載欠落箇所はWikipedia内に正解の記載がなく,正しく空欄を抽出したものである. 表[*]において太字で記載してあるものは正解と判断したものである. 表[*]について,この表の記載欠落箇所を補完するために提案手法の[*]節の手法を用いる. 実際に補完ができたものを表[*]に示す. 括弧付きで記載されているものが補完した情報である. ただしこの例で補完されている情報は,出現した記事数の多さが1位のものを示しているのではなく,Web文書から情報抽出をして得られた記事頻度上位1位から5位の単語のうち最初に正解と判断したものである.

Web文書からの情報抽出の成功例として,「小田原城」を検索エンジンに入力して得られたWeb文書に対し,上位下位知識に基づく手法を用いて情報抽出を行い,記事頻度上位1位から20位までの単語を表にまとめたものを表[*]に示す. 表において太字で記載してあるものは正解と判断したものである.本研究では取得記事が50件だったためか,この例では抽出できた単語が5つしかなかったため,6位から20位は無記入の状態としている. 表[*]は,表[*]のうち重要項目「時代」が記載欠落箇所となっていたため,表[*]で補完した重要項目「時代」の「戦国時代」が記事頻度何位であったかを,考察を行うときに分かりやすくするためのものである. ユーザには記事頻度上位1位から5位の単語をまとめた表と,5個の単語がどのような文章に記載されていたかがわかるように,単語が記載されている文章を表とともに提示することにより文章の修正がしやすくなると考える.

「戦国時代」が出現した文章の例を以下に示す.「戦国時代」は太字で記載している.

[
l]「戦国時代」が出現した文章の例 【小田原城】小田原市にある城
鎌倉時代初め、土肥氏が築城
戦国時代、北条早雲が入城して後、北条氏の本城となり、関東の中心となった

このように正しく記載欠落箇所を補完することができれば,文章修正支援に役立つ.


 
表: 上位下位知識の表に記載欠落箇所がある例
城名 県名 時代 地名 元号
小田原城
溝口城 愛知県 愛知 天正


 
表: 上位下位知識での文章修正支援の成功例
城名 県名 時代 地名 元号
小田原城 (神奈川県) (江戸時代) (箱根) (天正)
溝口城 愛知県 (戦国時代) 愛知 天正


表: 小田原城の時代 記事頻度上位1位から20位まで
城名 記事頻度順位 時代 記事数
1 江戸時代 22
2 戦国時代 16
3 現代 6
4 室町時代 5
小田原城 5 安土桃山時代 1
6
7
&vellip#vdots; &vellip#vdots; &vellip#vdots;
20

[*]は,[*]節の手法によりWikipediaの文書からクラスタリングに基づく手法を用いて重要情報を抽出して作成した表であり,表[*]の記載欠落箇所はWikipedia内に正解の記載がなく,正しく空欄を抽出したものである. 表[*]において太字で記載してあるものは正解と判断したものである. 表[*]について,この表の記載欠落箇所を補完するために提案手法の[*]節の手法を用いる. 実際に補完ができたものを表[*]に示す. 括弧付きで記載されているものが補完した情報である. ただしこの例で補完されている情報は,出現した記事数の多さが1位のものを示しているのではなく,Web文書から情報抽出をして得られた記事頻度上位1位から5位の単語のうち最初に正解と判断したものである.

Web文書からの情報抽出の成功例として,「門司城」を検索エンジンに入力して得られたWeb文書に対し,クラスタリングに基づく手法を用いて情報抽出を行い,記事頻度上位1位から20位までの単語を表にまとめたものを表[*]に示す. 表において太字で記載してあるものは正解と判断したものである. 表[*]は,表[*]のうち重要項目「クラスタ765」が記載欠落箇所となっていたため,表[*]で補完した重要項目「クラスタ765」の「交通」が記事頻度何位であったかを,考察を行うときに分かりやすくするためのものである. ユーザには記事頻度上位1位から5位の単語をまとめた表と,5個の単語がどのような文章に記載されていたかがわかるように,単語が記載されている文章を表とともに提示することにより文章の修正がしやすくなると考える.

「交通」が出現した文章の例を以下に示す.「交通」は太字で記載している.

[
l]「交通」が出現した文章の例 大友義鎮と毛利元就との合戦、「門司城の戦い」の舞台となった城として知られています
関門海峡を見下ろす交通の要衝であったため、大友氏と大内氏、大内氏滅亡後は毛利氏の間でが争奪戦が繰り広げられました

このように正しく記載欠落箇所を補完することができれば,文章修正支援に役立つ.


 
表: クラスタリングの表に記載欠落箇所がある例
城名 クラスタ401(戦い状況) クラスタ407(城の造り) クラスタ765(交通関係)
安濃津城
門司城 敗戦 本丸


 
表: クラスタリングでの文章修正支援の成功例
城名 クラスタ401(戦い状況) クラスタ407(城の造り) クラスタ765(交通関係)
安濃津城 (開城) (本丸) (街道)
門司城 敗戦 本丸 (交通)


表: 門司城のクラスタ765 記事頻度上位1位から20位まで
城名 記事頻度順位 クラスタ765(交通関係) 記事数
1 交通 10
2 海道 8
3 便利 7
4 要衝 5
5 幹線 5
6 北陸 4
7 瀬戸内 3
8 水上 3
9 山陽 3
10 押さえ 3
門司城 11 連絡 2
12 要所 2
13 繋がる 2
14 街道 2
15 伊勢湾 2
16 抑える 1
17 生野 1
18 山陰 1
19 国境 1
20 交差 1


next up previous contents
Next: 情報抽出の失敗例 Up: 実験結果 Previous: 正解がないままでよい箇所の取り出し性能   目次
root 2017-03-04