次へ: 情報抽出
上へ: 関連研究
戻る: 関連研究
目次
第1章で紹介した藤井らの研究[1]の教師データ作成方法の説明を行う.
入力された用語について検索されたテキストを入力として扱い,用語分類,観点分類を
順番に実行する.用語分類は,Wikipediaの「病名」「人名」「動物名」のページ集合をページごとに学習を行い,入力されたテキストが「病名」「人名」「動物名」のうちどの事柄について記述されているかを判断する.
観点分類は,例えば用語分類において「病名」に分類されたテキストを入力とする場合,「病名」に関するWikipediaのページ集合を観点(「病状」「原因」「治療」)ごとに学習を行い,そのテキストが「症状」「原因」「治療」のどの観点について記述されているかを判断する.
本研究では,この二つの分類器のうち特に観点分類の技術を参考に教師データを自動的に
生成する.
平成23年3月2日