next up previous contents
次へ: 法則内容抽出 上へ: 法則ページ抽出方法 戻る: Wikipediaの構成   目次


法則名抽出

Wikipediaではリンクが存在する単語は括弧で挟まれている. リンクが存在する単語は,その単語のページが存在している可能性が高いため, 単純に単語を抽出するよりも,効率の良いページの抽出が可能になる. 括弧で囲まれた単語の中から,正規表現にマッチする文字列を得ることによって,法則名を抽出する. 括弧で囲まれた単語のうち,[分布][分類][泳動][原理][現象][数][効果][公理] [理論][収差][定理][転位][予想][法][価][律][線][説][式][則] と末尾が一致したものを抽出し,その中から法則名でないものを人手で削除する.



平成23年3月2日