次へ:
実験
上へ:
教師データ作成手法
戻る:
手作業による教師データの作成
目次
推定教師データの作成
手作業でデータに分類先を付与する作業を省略し,推定教師データを作成する. 例えば,情報タグ「:歴史」を付与するための教師データを作成する場合, Wikipediaには,「歴史」というセクション名が存在しているページがある. そういったページでは,セクション名が「歴史」のセクションは歴史の情報を含み, 他のセクションには,歴史の情報が含まれていない可能性が高い. 推定教師データは,その性質を利用するものであり,推定教師データは以下の手順で構築される.
手順1
法則関係のページからセクション名に「歴史」があるページを抽出する.
手順2
抽出したページについて,ページごとにセクション名「歴史」のセクションをクラス「歴史」に,それ以外のセクションをクラス「無し」として教師データを作成する.
手順3
書きかけのセクション等を削除する.
表
に熱力学のページの各セクションの分類例を載せる.
分類例
表:
分類例
セクション名
分類先
熱力学
無し
目次
無し
歴史
歴史
熱力学の法則
無し
より百科事典的な説明
無し
熱力学的系
無し
基本法則からの発展と応用
無し
非平衡熱力学
無し
参考文献
無し
関連書籍
無し
表のように,セクション名が「歴史」であったセクションは分類先が「歴史」となり,それ以外は「無し」となる.
平成23年3月2日