next up previous contents
Next: 実験環境 Up: Wikipedia以外の実験 Previous: Wikipedia以外の実験   目次

先行研究

馬場ら [8]は「人名抽出」と「特徴表現の抽出」の観点で人物抽出を行っていた.

「人名抽出」は人名辞書を利用し,辞書に載っている人名を小説テキストから抽出する.また,人名辞書に載っていないものは形態素解析を利用して抽出する.人名とする条件は人名として抽出された語のテキスト全体における出現回数をf,小説テキストに含まれる形式段落数をLとした場合,f/Lが閾値よりも大きい場合にその語を人名と選定していた.

また,「特徴表現の抽出」は人手で作成した特徴「性別」「年齢」「年代」「職業」「身体的特徴」「性格」を重要項目として評価を行っていた.「性別」は性別がわかる語(男性,母,叔父など)や性別固有の一人称(俺,わしなど)が含まれていれば正解としていた.「年齢」は「17 歳」や「三十五才」といった表記がなされていれば正解としていた.「年代」は人間の一生を「乳幼児期」「少年期」「青年期」「中年期」「老年期」の特徴ができていれば正解としていた.「職業」は「世界樹の下」を参考に「剣士・騎士・戦士」といった職業リストとその特徴語が一致した場合正解としていた.「身体的特徴」は髪や瞳の色,声,体格など,容姿に関する特徴を抽出できれば正解としていた.

本研究では「特徴表現の抽出」の観点で先行研究と比較実験を行う.



akano hokuto 2018-03-06