表4.21に単語組「風」「林」「火」「山」の機械学習の分類結果を示す. 表4.22に単語組「風」「林」「火」「山」の正規化α値に基づいた機械学習が参考にした素性を示す.
データ数 | 再現率 | 適合率 | |
風 | 1000 | 0.75 | 0.74 |
林 | 1000 | 0.82 | 0.84 |
火 | 1000 | 0.82 | 0.84 |
山 | 1000 | 0.66 | 0.67 |
総数 | 4000 | 0.76 | 0.76 |
「風」「林」「火」「山」全てにおいて,名詞単体で自立語や付属語になりやすいことが多いことが言える.
各単語の素性として,「風」は「方向」や「音」など風を感じる表現が多く含まれていたほか,「吹く」,「乗る」という動詞が後に続く傾向があるという文法における素性があった.また,「立ち」という動詞も多く出現していることがわかり,記事を詳しく調べると宮崎駿監督の映画「風立ちぬ」に関する情報が多く出現していることが判明した.
「林」の素性として,「林」さんのように名字として多く出現するほか,「ブナ」や「スギ」,「カラマツ」など木の種類に関する単語や「人工」や「原生」,「保護」を前後につける使われ方をすることがわかった.
「火」の素性として,「火曜日」を示すものが多く出現し,曜日が「(火)」のように記されているほか,「出る」,「かける」という動詞が助詞の後に続く傾向があり,また「祭り」や「用心」という名詞も続く傾向があるということがわかった.
「山」の素性として,「スキー」のように自然を活かした活用がある反面,「火事」や「事故」,「不明」のような災害が多く起こりうる場所であるということがわかった.
また,「風」,「山」両方の素性として,「時津風」や「双葉山」のような相撲取りのしこ名に使用され,主に新聞記事の取組結果欄に多く出現することがわかった.