次へ: 法則内容抽出
上へ: 法則ページ抽出方法
戻る: Wikipediaの構成
目次
法則名抽出
Wikipediaではリンクが存在する単語は括弧で挟まれている.
リンクが存在する単語は,その単語のページが存在している可能性が高いため,
単純に単語を抽出するよりも,効率の良いページの抽出が可能になる.
括弧で囲まれた単語の中から,正規表現にマッチする文字列を得ることによって,法則名を抽出する.
括弧で囲まれた単語のうち,[分布][分類][泳動][原理][現象][数][効果][公理]
[理論][収差][定理][転位][予想][法][価][律][線][説][式][則]
と末尾が一致したものを抽出し,その中から法則名でないものを人手で削除する.
平成23年3月2日