次へ: 法則の変遷情報の抽出
上へ: 先行研究
戻る: 先行研究
目次
堀ら[1]は,研究者や研究分野の変遷情報(例えば,人名では「池原悟(先輩)→村上仁一(後輩)」のような先輩後輩関係の対,分野名では「情報抽出(ルーツ)→要約(派生分野)」のような派性関係の対)を自動的に抽出する方法を提案した.
論文の著者として,ある人名Aが出現した最初の時期に同時に共起し,
人名Aより初出現年が早い人名Bは,人名Aのルーツ(先輩)である可能性が高いと思われる.
分野名においても同様のことが言える.
この仮説に基づいた人名の変遷情報の推定方法を,以下に示す.
- 手順1
- 論文から著者名データ(本論文では著者名と共著の人名を合わせたものを著者名データとする)を抽出し,その中から指定した人名を抽出し人名Aとする.
- 手順2
- 人名Aを含む著者名データを取り出し,その中より(最初の時期によく共起した情報を取り出したいため)出現年の早いものから10件の著者名データを取り出す.
- 手順3
- その10件の著者名データから共起している人名すべてを取り出し,
人名
(
は整数.
は共起している人名の異なり数だけ設定)とする.
出現年の早い順に重みを付け,出現した論文の分だけ人名
ごとにその重みを加算する.
- 手順4
-
のうち,初出現年が人名Aの初出現年よりも早く,重みが最も大きい人名(人名B)を人名Aのルーツとする.
また,分野名の変遷情報の推定方法を以下に示す.
- 手順1
- 「言選」[12]を使用し,論文データのタイトル(またはアブストラクトも含めてもよい.
ただし本研究ではタイトルのみを利用する.)から名詞連続を取り出し,不要な語を人手で省く.
その中から指定した名詞連続を抽出し分野名Aとする.
以下,[手順2]から人名の変遷情報の推定方法と同様.
図:
先行研究の流れの概要図(人名の変遷情報抽出)
|
図3.1を用いて説明を行う.
図3.1は人名のルーツを抽出する例である.
まず,調べたい人名が「人名A」であった場合,
全データ(言語処理学会年次大会の論文1995年から2010年の3,139件)から
「人名A」を含む著者名データを抽出する.
次に,「人名A」と共に出現した人名を抽出し,出現年,出現回数により重みを付け,
その重みが一番大きいもの(ここでは「人名
」)を抽出する.
ここで,「人名
」が初めて出現した年を見て,「人名A」よりも早かった場合,
「人名
」は「人名A」のルーツとなる.
この方法により,人名と分野名においての変遷情報を抽出することができた.
しかし,この方法では学術分野間,師弟間という限定された種類の変遷情報しか抽出することができない.
平成25年3月13日