次へ: 変遷情報
上へ: thesis5
戻る: 図一覧
目次
物事の変遷を知ることは,その物事の知識を会得する際に重要なことである.
変遷を知るためには一般的にWebや検索エンジン,
または書籍を使用して情報を得る方法があげられるが,
これらの方法では人手では網羅的に収集することが困難であり,かつ多大な労力を要する.
変遷を知ることを自動で簡単に行うことができれば非常に便利である.
堀らは[1]その手始めとして,
論文のタイトル,著者名のデータを使用し,分野の変遷関係,
人物の変遷関係(いわゆる先生と弟子のような関係)を
自動で推定した.次に,Fanら[2]は法則の変遷情報をWikipediaから抽出した.
法則ページ(法則を記載したページ)に記載されている年号より各法則の発見年を予測し,
ある法則Aのページに他の法則Bが記載されている場合に法則Aと法則Bが
変遷の関係にある可能性が高いとするヒューリスティックルールに基づき,
法則Aと法則Bの対をそれぞれの法則の発見年とともに変遷情報として抽出した.
これらの研究は,問題点として学術分野間,師弟間,法則間という限定された変遷情報の種類についての抽出であったことが挙げられる.
そこで,本研究では,より多くの種類の変遷情報を自動で,
より高性能で取得することを大きな目的とする.
この目的を達成するため,本論文では,以下の研究を行う.
- 大量の文から人手で作成したパターンを利用し,変遷情報を自動で抽出する.また,教師あり機械学習を追加してより高性能に変遷情報の抽出を行う.(4章)
- 1で抽出した変遷情報は何についての変遷かわからないため,1で抽出した変遷情報を人手で分類し,分析する.(5.1節)
- 機械学習を利用して変遷情報の自動分類も行う.(5.2節)
本研究の主張点を以下に整理する.
- 大規模テキストから変遷情報を取り出すという特色のある研究対象を扱った.
- パターンで変遷情報を含む可能性のある個所を抜き出し,そこから機械学習でより高性能に変遷情報を抜き出す手法を提案した.この手法はパターンを用いるだけの手法よりも性能が高いことを確認した.本研究の実験において提案手法は0.9という高いF値を得た.
ただし,ここでのF値はパターンに基づく方法で抽出できた
正しい変遷情報の個数に相当するものを再現率の分母にして算出したものである.
- 変遷情報の人手に基づく分類を行った.
これは変遷情報を扱う際の理論的基礎として今後役立つと考える.
また,機械学習を使用し,自動的に分類を行った.
平成25年3月13日