next up previous contents
次へ: 実験 上へ: 教師データ作成手法 戻る: 手作業による教師データの作成   目次


推定教師データの作成

手作業でデータに分類先を付与する作業を省略し,推定教師データを作成する. 例えば,情報タグ「:歴史」を付与するための教師データを作成する場合, Wikipediaには,「歴史」というセクション名が存在しているページがある. そういったページでは,セクション名が「歴史」のセクションは歴史の情報を含み, 他のセクションには,歴史の情報が含まれていない可能性が高い. 推定教師データは,その性質を利用するものであり,推定教師データは以下の手順で構築される.
手順1
法則関係のページからセクション名に「歴史」があるページを抽出する.
手順2
抽出したページについて,ページごとにセクション名「歴史」のセクションをクラス「歴史」に,それ以外のセクションをクラス「無し」として教師データを作成する.
手順3
書きかけのセクション等を削除する.
[*]に熱力学のページの各セクションの分類例を載せる.
  • 分類例
  • 表: 分類例
    セクション名 分類先
      熱力学 無し
    目次 無し
      歴史 歴史
    熱力学の法則 無し
      より百科事典的な説明 無し
    熱力学的系 無し
    基本法則からの発展と応用 無し
    非平衡熱力学 無し
    参考文献 無し
    関連書籍 無し

    表のように,セクション名が「歴史」であったセクションは分類先が「歴史」となり,それ以外は「無し」となる.



    平成23年3月2日