「風」「林」「火」「山」

(正解例1)
あれほど問題になりながら「どこ吹く」の不可解。
(正解例2)
小中学校で、BGMとして流すほか、ブナ保護の音楽祭の開催も検討している。
(正解例3)
第一巻の内容をみると、「の用心」と米などの入札関係が全体の三分の二を占める。
(正解例4)
ここに、もうひとつの日本一低いがあるらしい。
(誤り例1)
雨、(風)の中をあえてオープンで走るところに粋を感じるようなところがある。
(誤り例2)
クロマツ(林)や芝生の緑に囲まれ、面積は22・7ヘクタール、砂浜の延長は約1キロある。
(誤り例3)
(火)おこしや、空き缶でご飯を炊く方法、段ボールを使ったベッドの作り方などを学んだ。

(誤り例4)
米など食品への放射能汚染が懸念され、それは(山)の木々、海にも広がる。

4.21に単語組「風」「林」「火」「山」の機械学習の分類結果を示す. 表4.22に単語組「風」「林」「火」「山」の正規化α値に基づいた機械学習が参考にした素性を示す.




Table 4.21: 機械学習の分類結果(「風」「林」「火」「山」)
  データ数 再現率 適合率
1000 0.75 0.74
1000 0.82 0.84
1000 0.82 0.84
1000 0.66 0.67
総数 4000 0.76 0.76


Table 4.22: 機械学習が参考にした素性(正規化 1#1値:「風」「林」「火」「山」)


34#34


「風」「林」「火」「山」全てにおいて,名詞単体で自立語や付属語になりやすいことが多いことが言える.

各単語の素性として,「風」は「方向」や「音」など風を感じる表現が多く含まれていたほか,「吹く」,「乗る」という動詞が後に続く傾向があるという文法における素性があった.また,「立ち」という動詞も多く出現していることがわかり,記事を詳しく調べると宮崎駿監督の映画「風立ちぬ」に関する情報が多く出現していることが判明した.

「林」の素性として,「林」さんのように名字として多く出現するほか,「ブナ」や「スギ」,「カラマツ」など木の種類に関する単語や「人工」や「原生」,「保護」を前後につける使われ方をすることがわかった.

「火」の素性として,「火曜日」を示すものが多く出現し,曜日が「(火)」のように記されているほか,「出る」,「かける」という動詞が助詞の後に続く傾向があり,また「祭り」や「用心」という名詞も続く傾向があるということがわかった.

「山」の素性として,「スキー」のように自然を活かした活用がある反面,「火事」や「事故」,「不明」のような災害が多く起こりうる場所であるということがわかった.

また,「風」,「山」両方の素性として,「時津風」や「双葉山」のような相撲取りのしこ名に使用され,主に新聞記事の取組結果欄に多く出現することがわかった.