next up previous contents
Next: 単語抽出における正解率 Up: 評価方法 Previous: 評価方法   目次

表抽出における正解率

先行手法の実験はクラスタリングを行い,頻度計算から重要項目の決定を行う.頻度計算から,人手で選んだクラスタ番号「401」「407」「765」を評価対象として評価実験を行う. クラスタ番号「401」では戦い関係の情報が1つでも正しく抽出された場合正解とし,クラスタ番号「クラスタ407」では城の造りの情報が1つでも正しく抽出された場合正解とし,クラスタ番号「クラスタ765」は交通関係の情報が1つでも正しく抽出された場合正解とする.また,空欄が抽出された場合は,Wikipedia内に本当に正解の記載が無かった場合正解とする. クラスタ番号「401」を「戦い」とし,クラスタ番号「407」を「城の造り」とし,クラスタ番号「765」を「交通」として人手で重要項目名をふる.

提案手法の単語のクラスタリングの実験も同様に頻度計算から重要項目の決定を行う.頻度計算から,人手で選んだクラスタ番号「1556」「465」「1472」を評価対象として評価実験を行う. また,クラスタ番号「1556」を「戦い」とし,クラスタ番号「465」を「城の造り」とし,クラスタ番号「1472」を「交通」として人手で重要項目名をふる.評価方法としては先行手法と同様に行う.

提案手法の類似度の実験は先行手法と提案手法の比較を行うため,「戦争」「文化財」「交通」を重要項目と決定し,それぞれ3つの単語との類似度が高い単語を重要項目の単語群とする.「戦争」は「戦い」に対応し,「文化財」は「城の造り」に対応づけて評価する.評価方法としては先行手法と同様に行う.

提案手法の分類語彙表は分類項目名「からだ」「時代」「火」「平和」「競争」「攻防」「勝敗」「軍事」「支配」「刑」「捕縛」に属する単語を重要項目「戦い関係」と定義し,分類項目名「社寺」「住居」「家屋」「門・塀」「へや」「屋根」「その他」に属する単語を重要項目「城の造り」と定義し,分類項目名「道路」「過程」「通行」「運輸」に属する単語を重要項目「交通関係」と定義し評価する.評価方法としては先行手法と同様に行う.



akano hokuto 2018-03-06