next up previous contents
Next: 就職関連情報の分類 Up: 提案手法 Previous: 適合率,再現率,F値   目次

就職関連情報の抽出

ウェブ上の大量データから情報を抽出するために,ALAGINの意味的関係抽出サービスを利用する. ALAGINの意味的関係抽出サービスでは,パターンを入力し,文と該当ページのURLが得られる. そのため,就職関連情報である文だけでなく,URL先に有益な就職関連情報があると期待できるような文も就職関連情報とする.

就職活動に役立つ情報を取得したいため,``Bに役立つA''という意味関係をシードパターンとした. シードパターンと,類似パターンの一部を図3.7に示す.

図 3.7: シードパターンと類似パターン
41#41

これらの意味関係を含む文集合を取得する. 得られた文集合から就職活動に関係するものを,教師あり機械学習やルールベース手法により取り出す. 全ての文章を就職関連情報と判定する,ベースライン手法も取り入れた.

機械学習では,正解の分類先を付与したデータを作成し,学習データとして用いる. 機械学習で用いる素性は,文をChaSen[12]を用い単語に分割し,その単語を利用する. 機械学習にはSVMを用い,10分割のクロスバリデーションで評価する.

ルールベース手法では,「資格」「求人」「就職」を含む文を就職関連情報として抽出する. これらのルールベース指定単語は事前に評価データとは別のデータにおいて人手で定める.

ベースライン手法は全てを正例と判定する手法である.ベースライン手法で検出した就職関連情報の個数から再現率の分母を推定する.



Ryohei Abe 2015-03-10