next up previous contents
Next: ウェブからの就職活動情報の自動抽出を行う関連研究 Up: 関連研究 Previous: 関連研究   目次

機械学習やルールベースを用いた研究

堀の研究[1]では,ウェブから変遷情報を抽出し,変遷情報の種類を分類した. ウェブから文データを抽出し,分類する点で,本研究とアプローチが似ている. 堀は,ALAGINの意味的関係抽出サービス[10]を用い変遷情報を抽出した. 意味的関係抽出サービスを用い,ウェブからの情報の抽出を行い,抽出された結果を分類するというアプローチは,本研究と共通するアプローチである. 堀の研究の流れを以下の図2.1に示す.

図 2.1: 変遷情報の抽出の流れ
1#1

変遷情報の抽出では,抽出された変遷情報が真に変遷情報であるか判定をしている. ALAGINの意味的関係抽出サービスでパターンを使用し抽出された文は,F値が0.86と比較的高い性能で抽出されていた. 更に,機械学習を組み合わせることで,F値が0.91とより高い性能で変遷情報を抽出できることがわかった. 変遷情報の種類の分類では機械学習を用い分類を行っている. 機械学習を用いた分類では,いくつかの分類先ではF値が6〜7割程度の性能を得た.しかし,文の総数が少ないものでは性能が低い傾向にあった.また,一部の分類先が評価データ中に存在しなかったため,性能の評価ができなかった.文の総数を増やすことで改善が見込まれる. 各分類先での性能を把握しておくことで,分類の性能の向上に役立てることができると考える.

 

端の研究[3]では,ウェブ上からの文の抽出に機械学習を用い,抽出の性能が高かったことを示している. 端は大量のウェブデータから感動を与える文を収集し,そういった文に多く含まれる単語を分析した. ウェブ上から感動を与える文を収集し,人手で感動を与える文か否かを判定したものを学習データとする. ウェブコーパスから取得した文を機械学習で自動推定し,得られた文が感動を与える文か否かを人手で判定し,学習データに追加する.これにより,機械学習で感動を与える文を抽出し,学習データを追加した. 続いて,学習データのうち,感動を与える文と判定されたものに多く含まれる単語を分析した.感動を与える文において,出現率8割以上かつ,出現頻度が5以上の単語を取り出している.結果,感動を与える文に多く含まれる単語として「人生」「人々」「幸福」「友情」「青春」「恋愛」などが得られた. 最後に,自動抽出の性能を評価している.以下に述べる4つの手法でそれぞれ適合率,再現率,F値を求めることにより性能を比較した.

  1. 機械学習に基づく方法で,機械学習で抽出された学習データをn回用いた場合の性能を求める.
  2. 分析された単語を含む文を感動を与える文と判定する手法である.本研究のルールベース手法にあたる手法.
  3. 「感動」という単語を含む文を感動を与える文と判定する手法.
  4. 全ての文を感動を与える文と判定する,ベースライン手法.この手法で検出した正例の個数から,再現率の分母を推定している.
実験の結果,1つ目の手法の機械学習で抽出された学習データを用いた手法の性能が一番高かった.機械学習で抽出された学習データを用いなかった時は適合率0.06だったが,機械学習で抽出された学習データを用いた時は適合率が0.4まで向上した.これにより,機械学習で抽出された学習データが有用だったことが示された.

 

ウェブからの情報抽出で機械学習だけでなくルールベース手法を取り入れ性能が向上した研究に,栗原ら[2]や高橋ら[6]の研究がある.

栗原らは,Twitterからの不具合情報の抽出で機械学習を用いたところ,適合率が0.19と非常に低かった.原因として,学習データの単語のガバレッジが不足していたことを挙げた.適合率を上げるには人手による正例の追加が検討されるが,高コストとなるため,現実的でないことを指摘している.そこでルールベース手法を利用し,人手で抽出のルールを作成したもので抽出を行った結果,適合率が0.94と大きく向上した.

高橋らは,職業の自動分類にルールベース手法と機械学習を合わせて利用することで,高い精度で分類できることを発見した. 分類先は,仕事の内容,従業先事業の職種,従業上の地位,役職,従業先事業の規模を含む一連の解答群から被験者に自由回答で記述してもらい,総合的に判断し決定する. ルールベース手法では,職業コードに関する定義文や知識をルールとしてまとめた「職業辞書」を利用する. 「職業辞書」に回答とマッチするルールがあればその職業コードを付与する.機械学習による手法では,素性に,「仕事の内容」に出現する単語,「従業先事業の種類」に出現する単語,「従業上の地位+役職」を利用する. 更に,機械学習とルールベース手法を組み合わせる手法では,以下に記述する4つを検討している.

  1. ルールベース手法が出力した職業コードを素性に追加する
  2. ルールベース手法でマッチしたルールを素性に追加する
  3. ルールベース手法で出力した職業コードおよびマッチしたルールを素性に追加する
  4. ルールベース手法が職業コードを決定できない場合に機械学習による方法の結果を利用する
実験の結果,4つすべてにおいて,機械学習やルールベース手法を単独で利用するより高い正解率を得た. この内,ルールベース手法が決定した職業コードを素性とする方法が最も有効であった.



Ryohei Abe 2015-03-10