next up previous contents
次へ: 目次 上へ: thesis5 戻る: thesis5   目次

概要

物事の変遷を知ることはその物事の知識を会得する時に重要であるが, 人手では網羅的に収集するのが困難であり,かつ多大な労力を要する. そこで,変遷を知ることを自動で簡単に行いたい.

堀らの先行研究[1]ではその手始めとして, 論文のタイトル,著者名のデータを使用し,どの分野がどの分野から発生したか, どの研究者がどの研究者を教示していたかの関係(いわゆる先生と弟子のような関係)を 自動で推定した.

この研究は,問題点として学術分野間,師弟間という限定された変遷情報の種類についての抽出であったことが挙げられる.

本研究では,この問題を解決するために, まず大量の文からパターンに合致するものを取得することで,幅広い分野の変遷情報を取得した. この方法で0.86という高いF値で変遷情報を抽出できた. 更に,より性能高く変遷情報を抽出するために,パターンベース法に機械学習 (SVM,ME)を追加した. 実験の結果,SVMではF値0.91,MEではF値0.89で変遷情報を抽出できた. ただし,ここでのF値はパターンに基づく方法で抽出できた 正しい変遷情報の個数に相当するものを再現率の分母にして算出したものである. 詳しくは4.2.2節において説明する. 本研究により,パターンに基づく方法と機械学習を組み合わせることで, より性能高く変遷情報を取り出せることがわかった.

また,抽出した変遷情報は,様々な種類の情報が混ざっているため, 人手により変遷情報の分類を行った. 更に,分類を自動で行いたいと考え,機械学習により変遷情報の分類を行った. その結果,学習データの事例数の多い分類ではF値が6割以上であった.



平成25年3月13日