next up previous contents
次へ: 西暦変換 上へ: 提案手法の詳細 戻る: 提案手法の詳細   目次


法則年号の抽出

Wikipedia の法則ページから法則の発見年を抽出する. Wikipedia の法則ページには法則の発見年が記載されている場合が多い. これを利用し法則ページから法則年号の抽出を行う. 法則年号の抽出の例を図[*]に示す.

法則ページから法則年号を抽出するための3つの手法を以下に示す. 手法A1はヒューリスティックルールに基づく手法であり, 手法A2および手法A3は教師あり機械学習に基づく手法である.

手法A1
法則ページの最初の年号をその法則の発見年として出力する手法. 法則ページの最初に出現した年号は法則の発見年である場合が多いことから, その最初の年号を抽出し法則年号とする.このとき,抽出した法則年号はこの手法の出力になる.

手法A2
法則ページの最初の年号を取り出し,その年号は法則の発見年であるかどうかを 機械で判断する手法.手法A1と異なり,手法A2の場合は機械の判断により抽出した年号は 法則の発見年でない場合は出力はしないものとし,法則の発見年である場合はその年号を出力とする.

手法A3
法則ページの全部の年号を取り出し,取り出した全部の年号を 機械学習SVMによって評価しスコアをつけ,スコアが最も高い年号を出力とする. スコアの最も高い年号のスコアが負(年号が正しくないを意味する)の 場合は,出力はしないものとする.

図: 法則年号の抽出の例
\includegraphics[width=180mm]{p6.eps}



Subsections

平成25年10月10日