next up previous contents
Next: 今後の課題 Up: 実験結果 Previous: 情報抽出の成功例   目次

情報抽出の失敗例

次にWeb文書からの情報抽出の失敗例について説明する.

正解候補が記事頻度上位1位から20位になかった場合の例を以下に示す.

[*]は,[*]節の手法により「高橋城」を検索エンジンに入力して得られたWebの文書に対し,固有表現抽出に基づく手法を用いて情報抽出を行い,単語が出現した記事数の上位1位から5位までをまとめたものである. 表において太字で記載してあるものは正解と判断したものである. 表[*]には正解候補が記事頻度上位1位から5位にない重要項目「地名」がある. 正解候補が上位1位から5位までにない場合は,記事頻度上位6位から20位までに正解候補がないかを取得したWeb文書から人手で確認する. 「高橋城」の重要項目「地名」について,記事頻度上位1位から20位までの単語を表にまとめたものを表[*]に示す. 表[*]より,取得したWeb文書内に正解候補がないかを確認したところ,記事頻度上位6位から20位には正解候補となるものがなかった. 「高橋城」の「地名」として正解になるものとしては,Webで調べたところ「京都府」が挙げられるが,システムにより正解かを判定するのは記事頻度上位1位から5位の単語であり,記事頻度上位1位から5位までに正解になる単語がなかったため,情報抽出としては失敗になった.


 
表: 固有表現抽出での文章修正支援の失敗例
城名 地名 人名 組織名
日本 高橋 島津軍
九州 島津 宝塚歌劇団
高橋城 筑前 大友 備中松山城
熊本 立花宗茂 高橋紹運
宝満山 立花道雪 紹運


表: 高橋城の地名 記事頻度上位1位から20位まで
城名 記事頻度順位 地名 記事数
1 日本 44
2 九州 42
3 筑前 30
4 熊本 22
5 宝満山 20
6 大友 20
7 土橋 18
8 17
9 天正 17
10 太宰府 14
高橋城 11 中国 12
12 山城 12
13 耳川 11
14 龍造寺 10
15 博多 10
16 筑後 9
17 肥前 8
18 栃木県 8
19 高梁市 8
20 阿須那 8

正解候補が記事頻度上位1位から20位にあった場合の例を以下に示す.

[*]は,[*]節の手法により「溝口城」を検索エンジンに入力して得られたWebの文書に対し,固有表現抽出に基づく手法を用いて情報抽出を行い,単語が出現した記事数の上位1位から5位までをまとめたものである. 表において太字で記載してあるものは正解と判断したものである. 表[*]には正解候補が記事頻度上位1位から5位にない重要項目「組織名」がある. 正解候補が上位1位から5位までにない場合は,記事頻度上位6位から20位までに正解候補がないかを取得したWeb文書から人手で確認する. 「溝口城」の重要項目「組織名」について,記事頻度上位1位から20位までの単語を表にまとめたものを表[*]に示す. 表[*]より,取得したWeb文書内に正解候補がないかを確認したところ,記事頻度上位6位から20位には正解候補となるものが,記事頻度19位にあった.表において太字で記載してあるものが正解と判断した箇所である. Web文書内の,単語が正解と判断できる文章の例を以下に記載する. 正解に相当する箇所を太字で記載している.

[
l]「新発田藩」が出現した文章の例 溝口城
新発田藩祖となった溝口秀勝ゆかりのお城

この場合,「組織名」の項目に対する正解候補である「新発田藩」が記事頻度上位19位に出現していたが,システムにより正解かを判定するのは記事頻度上位1位から5位までであるため,情報抽出としては失敗になった.


 
表: 固有表現抽出での文章修正支援の失敗例2
城名 地名 人名 組織名
尾張 溝口 岩倉
新発田 溝口秀勝 別名豊場城城郭構造平城築城
溝口城 愛知県稲沢市 溝口城 足羽将監重成
日本 秀勝 溝口メッキ電気亜鉛メッキ
福岡県 溝口勝政 ささら屋福光本店


表: 溝口城の組織名 記事頻度上位1位から20位まで
城名 記事頻度順位 組織名 記事数
1 岩倉 5
2 別名豊場城城郭構造平城築城 3
3 足羽将監重成 3
4 溝口メッキ電気亜鉛メッキ 3
5 ささら屋福光本店 3
6 陸田市左衛門 2
7 別名溝口城城郭構造平城築城 2
8 美山の遺跡−伊那市教育委員会 2
9 尾張溝口城尾張溝口 2
10 南朝 2
溝口城 11 田長盛 2
12 中日 2
13 築城年代:応永 2
14 祖父江大膳 2
15 川崎 2
16 生放送記事単語記事動画記事 2
17 清水 2
18 神戸電鉄公園都市線道 2
19 新発田藩 2
20 城溝口城新発田藩 2

正解候補が記事頻度上位1位から20位になかった場合の例を以下に示す.

[*]は,[*]節の手法により「三田城」を検索エンジンに入力して得られたWebの文書に対し,上位下位知識に基づく手法を用いて情報抽出を行い,単語が出現した記事数の上位1位から5位までをまとめたものである. 表において太字で記載してあるものは正解と判断したものである. 表[*]には正解候補が記事頻度上位1位から5位にない重要項目「県名」がある. 正解候補が上位1位から5位までにない場合は,記事頻度上位6位から20位までに正解候補がないかを取得したWeb文書から人手で確認する. 「三田城」の重要項目「県名」について,記事頻度上位1位から20位までの単語を表にまとめたものを表[*]に示す. 表[*]より,取得したWeb文書内に正解候補がないかを確認したところ,記事頻度上位6位から20位には正解候補となるものがなかった. 「三田城」の「県名」として正解になるものとしては,Webで調べたところ「兵庫県」が挙げられるが,システムにより正解かを判定するのは記事頻度上位1位から5位の単語であり,記事頻度上位1位から5位までに正解になる単語がなかったため,情報抽出としては失敗になった.


 
表: 上位下位知識での文章修正支援の失敗例1
城名 県名 時代 地名 元号
葉県 戦国時代 三田 明治
大分県 江戸時代 山崎 天正
三田城 千葉県 南北朝時代 神戸 寛永
神奈川県 現代 東京 文化
新潟県 室町時代 千石 慶長


表: 三田城の県名 記事頻度上位1位から20位まで
城名 記事頻度順位 県名 記事数
1 葉県 4
2 大分県 4
3 千葉県 4
4 神奈川県 4
5 新潟県 3
6 宮城県 3
7 愛知県 3
8 鳥取県 2
9 山形県 2
10 岐阜県 2
三田城 11 福岡県 2
12 福井県 1
13 富山県 1
14 徳島県 1
15 島根県 1
16 長野県 1
17 長崎県 1
18 静岡県 1
19 青森県 1
20 秋田県 1

正解候補が記事頻度上位1位から20位にあった場合の例を以下に示す.

[*]は,[*]節の手法により「打吹城」を検索エンジンに入力して得られたWebの文書に対し,上位下位知識に基づく手法を用いて情報抽出を行い,単語が出現した記事数の上位1位から5位までをまとめたものである. 表において太字で記載してあるものは正解と判断したものである. 表[*]には正解候補が記事頻度上位1位から5位にない重要項目「地名」がある. 正解候補が上位1位から5位までにない場合は,記事頻度上位6位から20位までに正解候補がないかを取得したWeb文書から人手で確認する. 「打吹城」の重要項目「地名」について,記事頻度上位1位から20位までの単語を表にまとめたものを表[*]に示す. 表[*]より,取得したWeb文書内に正解候補がないかを確認したところ,記事頻度上位6位から20位には正解候補となるものが,記事頻度6位にあった.表において太字で記載してあるものが正解と判断した箇所である. Web文書内の,単語が正解と判断できる文章の例を以下に記載する. 正解に相当する箇所を太字で記載している.

[
l]「白壁」が出現した文章の例 白壁土蔵群のある打吹玉川は外堀と伝えられている。

この場合,「地名」の項目に対する正解候補である「白壁」が記事頻度上位6位に出現していたが,システムにより正解かを判定するのは記事頻度上位1位から5位までであるため,情報抽出としては失敗になった.


 
表: 上位下位知識での文章修正支援の失敗例2
城名 県名 時代 地名 元号
鳥取県 戦国時代 石垣 元和
富山県 江戸時代 中村 明治
打吹城 島根県 室町時代 城下 慶長
新潟県 南北朝時代 毛利 延文
山口県 現代 池田 天正


表: 打吹城の地名 記事頻度上位1位から20位まで
城名 記事頻度順位 地名 記事数
1 石垣 26
2 中村 24
3 城下 23
4 毛利 21
5 池田 19
6 白壁 15
7 室町 12
8 山田 12
9 吉川 11
10 天皇 10
打吹城 11 天神 9
12 東京 8
13 中央 8
14 愛知 7
15 福井 7
16 奈良 7
17 東郷 7
18 千石 7
19 四国 6
20 平成 6

正解候補が記事頻度上位1位から20位になかった場合の例を以下に示す.

[*]は,[*]節の手法により「鏡島城」を検索エンジンに入力して得られたWebの文書に対し,クラスタリングに基づく手法を用いて情報抽出を行い,単語が出現した記事数の上位1位から5位までをまとめたものである. 表において太字で記載してあるものは正解と判断したものである. 表[*]には正解候補が記事頻度上位1位から5位にない重要項目「クラスタ407(城の造り)」がある. 正解候補が上位1位から5位までにない場合は,記事頻度上位6位から20位までに正解候補がないかを取得したWeb文書から人手で確認する. 「鏡島城」の重要項目「クラスタ407(城の造り)」について,記事頻度上位1位から20位までの単語を表にまとめたものを表[*]に示す. 表[*]より,取得したWeb文書内に正解候補がないかを確認したところ,記事頻度上位6位から20位には正解候補となるものがなかった. 「鏡島城」の「クラスタ407(城の造り)」として正解になるものとしては,Webで調べたところ「南門」が挙げられるが,システムにより正解かを判定するのは記事頻度上位1位から5位の単語であり,記事頻度上位1位から5位までに正解になる単語がなかったため,情報抽出としては失敗になった.


 
表: クラスタリングでの文章修正支援の失敗例
城名 クラスタ401(戦い状況) クラスタ407(城の造り) クラスタ765(交通関係)
落城 本丸 海道
防戦 役所 交通
鏡島城 出陣 大門 中山道
戻り 移築 便利
奮戦 門跡 街道


表: 鏡島城のクラスタ407 記事頻度上位1位から20位まで
城名 記事頻度順位 クラスタ407(城の造り) 記事数
1 本丸 6
2 役所 4
3 大門 3
4 移築 3
5 門跡 2
6 表門 2
7 二之 2
8 二ノ 2
9 二の丸 2
10 土蔵 2
鏡島城 11 長屋門 2
12 大手門 2
13 西丸 2
14 御殿 2
15 蓮池 1
16 裏門 1
17 門扉 1
18 番所 1
19 東門 1
20 東丸 1

正解候補が記事頻度上位1位から20位にあった場合の例を以下に示す.

[*]は,[*]節の手法により「田幡城」を検索エンジンに入力して得られたWebの文書に対し,クラスタリングに基づく手法を用いて情報抽出を行い,単語が出現した記事数の上位1位から5位までをまとめたものである. 表において太字で記載してあるものは正解と判断したものである. 表[*]には正解候補が記事頻度上位1位から5位にない重要項目「クラスタ401(戦い状況)」がある. 正解候補が上位1位から5位までにない場合は,記事頻度上位6位から20位までに正解候補がないかを取得したWeb文書から人手で確認する. 「田幡城」の重要項目「クラスタ401(戦い状況)」について,記事頻度上位1位から20位までの単語を表にまとめたものを表[*]に示す. 表[*]より,取得したWeb文書内に正解候補がないかを確認したところ,記事頻度上位6位から20位には正解候補となるものが,記事頻度16位にあった.表において太字で記載してあるものが正解と判断した箇所である. Web文書内の,単語が正解と判断できる文章の例を以下に記載する. 正解に相当する箇所を太字で記載している.

[
l]「大敗」が出現した文章の例 愛知の城 田幡城尾張...
...信長軍に大敗
その後、廃城となり、許されて信長に仕えた

この場合,「「クラスタ401(戦い状況)」の項目に対する正解候補である「大敗」が記事頻度上位16位に出現していたが,システムにより正解かを判定するのは記事頻度上位1位から5位までであるため,情報抽出としては失敗になった.


 
表: クラスタリングでの文章修正支援の失敗例2
城名 クラスタ401(戦い状況) クラスタ407(城の造り) クラスタ765(交通関係)
出陣 役所 海道
援軍 御殿 交通
田幡城 落城 本丸 交差
奮戦 正門 便利
直ぐ 二之 街道


表: 田幡城のクラスタ401 記事頻度上位1位から20位まで
城名 記事頻度順位 クラスタ401(戦い状況) 記事数
1 出陣 4
2 援軍 3
3 落城 2
4 奮戦 2
5 直ぐ 2
6 退却 2
7 加わっ 2
8 明け渡し 1
9 防戦 1
10 放火 1
田幡城 11 兵糧 1
12 派兵 1
13 転戦 1
14 駐留 1
15 着陣 1
16 大敗 1
17 全滅 1
18 焼き討ち 1
19 出撃 1
20 向かわ 1


next up previous contents
Next: 今後の課題 Up: 実験結果 Previous: 情報抽出の成功例   目次
root 2017-03-04