next up previous contents
Next: 今後の課題 Up: 実験 Previous: 就職関連情報の抽出   目次

就職関連情報の分類

就職関連情報の抽出実験ではルールベース手法が最も性能が高かった.ゆえに,ルールベース手法で就職関連情報を抽出し,分類した. 就職関連情報の抽出実験でルールベース手法を利用すると,9,908文が得られた. そのうちランダムで抜き出した300文を,就職関連情報の分類の評価データに利用し,別の300件を学習データとした.就職関連情報の分類実験の流れを以下の図4.2に示す.

図 4.2: 就職関連情報の分類実験の流れ
44#44

評価データ300文中の,各分類先の出現数を表4.2に示す.




表 4.2: 就職関連情報の分類先
分類先 出現数 分類先 出現数
資格情報 94 関係無 91
職業情報 73 就活支援情報 56
求職者ごとの情報 22 転職・再就職情報 35
求人情報 39

就職関連情報の抽出の実験同様,教師あり機械学習,ルールベース手法,ベースライン手法での性能を比較する. 手法の結果を表4.34.44.54.6に示す.




表 4.3: 就職関連情報の分類先とF値
分類先   機械学習   ルールベース   ベースライン
資格情報   0.75   0.83   0.48
職業情報   0.52   0.50   0.39
求職者ごとの情報   0.34   0.53   0.14
求人情報   0.69   0.75   0.23
関係無   0.45   0.47   0.47
就活支援情報   0.34   0.44   0.31
転職・再就職情報   0.45   0.89   0.21
平均   0.51   0.63   0.32




表 4.4: 機械学習での各分類先の適合率,再現率,F値
分類先   適合率     再現率     F値
資格情報   0.82   (65/79)   0.69   (65/94)   0.75
職業情報   0.60   (33/55)   0.45   (33/73)   0.52
求職者ごとの情報   0.37   (7/19)   0.32   (7/22)   0.34
求人情報   0.72   (26/36)   0.67   (26/39)   0.69
関係無   0.50   (37/74)   0.41   (37/91)   0.45
就活支援情報   0.62   (13/21)   0.23   (13/56)   0.34
転職・再就職情報   0.67   (12/18)   0.34   (12/35)   0.45
平均   0.61     0.44     0.51




表 4.5: ルールベース手法での各分類先の適合率,再現率,F値
分類先   適合率     再現率     F値
資格情報   0.73   (91/125)   0.97   (91/94)   0.83
職業情報   0.48   (39/81)   0.53   (39/73)   0.51
求職者ごとの情報   0.42   (16/38)   0.73   (16/22)   0.53
求人情報   0.63   (36/57)   0.92   (36/39)   0.75
関係無   0.30   (91/300)   1.00   (91/91)   0.47
就活支援情報   0.69   (18/26)   0.32   (18/56)   0.44
転職・再就職情報   0.8   (35/44)   1.00   (35/35)   0.89
平均   0.58     0.78     0.63




表 4.6: ベースライン手法での各分類先の適合率,再現率,F値
分類先   適合率     再現率     F値
資格情報   0.31   (94/300)   1.00   (94/94)   0.48
職業情報   0.24   (73/300)   1.00   (73/73)   0.39
求職者ごとの情報   0.07   (22/300)   1.00   (22/22)   0.14
求人情報   0.13   (39/300)   1.00   (39/39)   0.23
関係無   0.30   (91/300)   1.00   (91/91)   0.47
就活支援情報   0.19   (56/300)   1.00   (56/56)   0.31
転職・再就職情報   0.12   (35/300)   1.00   (35/35)   0.21
平均   0.20     1.00     0.32

ルールベース手法でF値平均6割となっており,機械学習のF値平均5割より高かった. また,ベースライン手法では,``資格情報'',``求人情報'',``転職・再就職情報''の分類先でF値約8割程度の性能が得られており,ある程度うまく分類することができることがわかった.


next up previous contents
Next: 今後の課題 Up: 実験 Previous: 就職関連情報の抽出   目次
Ryohei Abe 2015-03-10