next up previous contents
Next: 文章作成支援による評価実験 Up: 評価方法 Previous: 評価方法   目次

情報抽出による評価実験

先行手法である上位下位知識と提案手法であるクラスタリングで正解率を求めるために,4.1節の2,665件の城ページからランダムに抽出した城ページ30件を用いて評価を行う.

上位下位知識の実験では,4つの上位語の「県名」,「時代」,「地名」,「元号」を重要項目とする.重要項目として決定した4つの上位語の下位語が城ページに検出されれば城ページの行の表にそれを出力する.「県名」の項目はその城が存在する県名が抽出された場合正解,「時代」の項目では築城されてから廃城するまでの時代のいずれかが抽出された場合正解,「地名」の項目では城の所在地が抽出された場合正解,「元号」の項目では築城されてから廃城するまでの元号のいずれかが抽出された場合正解とする.また,空欄が抽出された場合はWikipedia内に本当に正解の記載が無かった場合正解とする.出現した全ての重要情報をまとめた表では,1つでも正解が抽出された場合正解とする.

クラスタリングの実験では,クラスタリングを行った結果において頻度計算から人手で重要項目を決定して,その中から人手で選んだクラスタ3つの「クラスタ401」,「クラスタ407」,「クラスタ765」を使って評価実験を行う.重要項目として決定した3つのクラスタ結果が城ページに検出されれば城ページの行の表に出力する.「クラスタ401」では戦い関係の情報が1つでも正しく抽出された場合正解,「クラスタ407」では城の造りの情報が1つでも正しく抽出された場合正解,「クラスタ765」は交通関係の情報が1つでも正しく抽出された場合正解とする.また,空欄が抽出された場合はWikipedia内に本当に正解の記載が無かった場合正解とする.


akano hokuto 2018-03-06