next up previous contents
次へ: 実験データ 上へ: 前処理 戻る: 前処理   目次

法則ページの抽出

法則の変遷情報の抽出を行うために,前処理としてWikipediaから法則を記載したページを抽出する必要がある. そのため,Wikipediaから法則ページの抽出を行う.本研究で取り扱うWikipediaのページは, 図[*]に示しているようなXMLファイルのデータ構造となっている. そのうち,変遷情報の抽出で利用するXMLタグの説明を表[*]にまとめる.

図: Wikipediaのページ構造
\includegraphics[width=150mm,height=190mm]{p2.eps}


表: 手法A2の素性
タグ 説明
[[PPP]] PPPというページへのリンク情報
<title> ページのタイトル名の始まり
</title> ページのタイトル名の終わり
<text> ページの内容の始まり
</text> ページの内容の終わり

法則ページの抽出では,図[*]のようなXMLファイルを入力とし, <title></title>で囲まれたページのタイトル名は,語尾が[分布][分類][泳動][原理][現象][数][効果] [公理][理論][収差][定理][転位][予想][法][価][律][線][説][式][則]と一致した場合に, そのページを法則ページとして抽出する.



平成25年10月10日