表4.11に単語組「小学」「中学」「高校」「大学」の機械学習の分類結果を示す. 表4.12に単語組「小学」「中学」「高校」「大学」の正規化α値に基づいた機械学習が参考にした素性を示す.
データ数 | 再現率 | 適合率 | |
小学 | 1000 | 0.87 | 0.84 |
中学 | 1000 | 0.61 | 0.60 |
高校 | 1000 | 0.60 | 0.64 |
大学 | 1000 | 0.71 | 0.69 |
総数 | 4000 | 0.70 | 0.70 |
「小学」の素性として,小学生特有の「5年生」や「6年生」の存在や,学生ではなく「児童」,「○○君」や「○○ちゃん」というような,幼い子どもに対する表現が多くあった.
「中学」の素性として,「高校」とまとめて表記されることが多いことがわかった. また,「興味」という単語から中学時代は様々なものに関心を抱く年頃であるのにと対し,「夜間」や「いじめ」という単語も同時に見受けられ,詳しく確認すると夜間学校は義務教育未履修者や日本に来たばかりの海外の学生だけでなく,「いじめ」や「登校拒否」によって日中学校に通えない人のためのものであるということを知ることができた.
「高校」の素性として,「大学」,「受験」,「合格」といった受験に関連するものが挙げられるほか,「甲子園」をはじめとした「大会」や「レース」,「賞」といった全国規模の大きなイベントや大会が開かれる傾向にある年代であるということが分かった.
「大学」の素性として,今まで中学や高校になかった「教授」や「研究」の存在や「国立」や「短大」のような大学の種類,「(○○)系」や「学部」のような「専攻」に関わる単語が多く見受けられたのが特徴であると言える.