就職活動に役立つ情報を取得したいため,``Bに役立つA''という意味関係をシードパターンとした. シードパターンと,類似パターンの一部を図3.7に示す.
これらの意味関係を含む文集合を取得する. 得られた文集合から就職活動に関係するものを,教師あり機械学習やルールベース手法により取り出す. 全ての文章を就職関連情報と判定する,ベースライン手法も取り入れた.
機械学習では,正解の分類先を付与したデータを作成し,学習データとして用いる. 機械学習で用いる素性は,文をChaSen[12]を用い単語に分割し,その単語を利用する. 機械学習にはSVMを用い,10分割のクロスバリデーションで評価する.
ルールベース手法では,「資格」「求人」「就職」を含む文を就職関連情報として抽出する. これらのルールベース指定単語は事前に評価データとは別のデータにおいて人手で定める.
ベースライン手法は全てを正例と判定する手法である.ベースライン手法で検出した就職関連情報の個数から再現率の分母を推定する.