次へ: Wikipediaからの情報抽出に関する研究
上へ: 関連研究
戻る: 関連研究
目次
変遷情報の抽出に関する研究として,堀らの研究があげられる[1][2].
堀らは研究者や研究分野の変遷情報(例えば,人名では「池原悟(先輩)→村上仁一(後輩)」
のような先輩後輩関係の対,分野名では「情報抽出(ルーツ)→要約(派生分野)」のような派生関係の対)
を自動的に抽出する方法を提案した[1].論文の著者として,ある人名Aが出現した最初の時期に同時に共起し,
人名 A より初出現年が早い人名 B は,人名 A のルーツ (先輩) である可能性が高いと思われる.
また分野名においても同様のことがいえる.この仮説に基づいて研究者と研究分野の変遷情報を抽出した.
この手法で抽出した人名の変遷情報,分野名の変遷情報を表,表に示す.
しかし,この研究の手法は学術分野間,師弟間という限定された種類の変遷情報しか抽出することができない.
表:
人名の変遷
人名 A(後輩) |
人名 B(先輩) |
村上仁一 |
池原悟 |
馬青 |
井佐原均 |
宮尾祐介 |
辻井潤一 |
丸山岳彦 |
柏岡秀紀 |
黒田航 |
井佐原均 |
表:
分野名の変遷
分野名 A |
分野名 B(ルーツ) |
自動評価 |
機械翻訳 |
統計的機械翻訳 |
統計 |
情報分析 |
分析 |
言語横断情報検索 |
情報検索 |
論文要約 |
情報抽出 |
より多くの種類の変遷情報を自動で,より高性能に取得することを目的として,
堀らはパターンに基づく手法と機械学習を組み合わせることで,大量の文から幅広い変遷情報を取得した[2].
また,抽出した変遷情報は,様々な種類の情報が混ざっているため,変遷情報の自動分類を行った.
変遷情報の抽出と分類は以下の手順で行う.
- 大量の文から人手で作成したパターンを利用し,変遷情報を自動で抽出する.また,
教師あり機械学習を追加してより高性能に変遷情報の抽出を行う.
- 1で抽出した変遷情報は何についての変遷かわからないため,1で抽出した変遷情報を人手で分類し,分析する.
- 機械学習を利用して変遷情報の自動分類も行う.
変遷情報の自動分類は変遷情報の含み方、変遷の種類、変化の仕方に基づいて行った.
ここで,変遷情報の含み方に基づく分類について説明する.
変遷情報の含み方に基づく分類の例を図に示す.
- type-A
- X,Y が明らかに変遷情報であり,知見の得
られる事例.ただし,X,Y 自体が変遷関係にない
場合であっても, X,Y に対して修飾関係 (連接した
修飾関係) にある語が変遷関係にある場合も type-A
とする.
- type-B
- X,Y のどちらか一方が一般的に広い意味を持
つ名詞であるが,文の構造からその名詞の具体的内
容を示す表現がその文の他の個所から抽出できる
事例.
- type-C
- X,Y のどちらか一方が一般的に広い意味を持
つ名詞であるが,X,Y の名詞から変遷として知見
の得られる事例
- type-D
- X,Y のどちらか一方,もしくは両方が一般
的に広い意味を持つ名詞であり,変遷として知見の
得られない事例
- type-E
- 単に場所を指定している事例
- type-F
- 単に状態を表している事例
図:
変遷情報の含み方に基づく分類ごとの文の例(文献[2]より引用)
|
堀らの研究と本研究との比較を以下にまとめる.
- 変遷情報の抽出という点では,堀らの研究と本研究は類似しているが,
堀らの研究は,研究者や研究分野の変遷情報を抽出し,さらに文章中から変遷情報を抽出ことを目的とする.
それに対し,本研究はWikipediaから法則の変遷情報の獲得を目的とする.
- 研究の手法として,堀ら[1]は重み付け手法で研究者および研究分野の変遷情報を自動的に抽出した.
堀ら[2]はパターンに基づく手法と機械学習を組み合わせることで,文章中から変遷情報を取得した.
本研究は変遷情報の抽出手法としてWebのリンク情報に基づくヒューリスティックルールと教師あり機械学習を組み合わせる手法を提案する.
- 堀らの手法は文章中の変遷を示す表現を用いて変遷情報を抽出するが,
本研究の手法はWikipediaのリンク情報を利用して法則の変遷情報を抽出する.
次へ: Wikipediaからの情報抽出に関する研究
上へ: 関連研究
戻る: 関連研究
目次
平成25年10月10日