表4.27に単語組「花」「鳥」「風」「月」の機械学習の分類結果を示す. 表4.28に単語組「花」「鳥」「風」「月」の正規化α値に基づいた機械学習が参考にした素性を示す.
データ数 | 再現率 | 適合率 | |
花 | 1000 | 0.72 | 0.70 |
鳥 | 1000 | 0.70 | 0.71 |
風 | 1000 | 0.75 | 0.74 |
月 | 1000 | 0.82 | 0.84 |
総数 | 4000 | 0.74 | 0.74 |
「花」の素性として,「梅」や「桜」,「チューリップ」などの植物の名前が挙げられたほか,花には「咲く」や「好き」という動詞が後に続く傾向があるという文法上の素性があった. 「風林火山」の時と同様に,力士の「しこ名」に多く用いられることがあることもわかった.
「鳥」の素性として,「羽」や「鳴き声」,「虫」など鳥の生態に関係する単語が多く出現していた.また「花」と同様に,「ペンギン」や「トキ」のように鳥類の名前も出現していたが,「花」ほど多くは得られなかった. また鳥は人間と関わりが深い動物でもあるため,「繁殖」や「人工」,「野生」,「保護」のような鳥を保護したり,繁殖を高めることを連想させる単語も多い反面,「インフルエンザ」や「感染」のような単語も多いことがわかった.
「風」の素性を得た文章は「風林火山」で用いた「風」という単語とは違う1000文をランダムに選び直した. しかし,「風林火山」の時に現れた素性とは違い,「韓国風」や「山小屋風」のように「何かに似たもの」という意味や,「このような風に」のような「様子」を意味する「風」の言い回しが多く素性として得られた. また,「ゴルフ」や「ヨット」などの風の影響が試合を左右するスポーツも素性として存在した.
「月」の素性として,天体の「月」だけでなく,1ヵ月という意味の「月」,月曜日という意味の「月」が混在していた. また,1ヵ月を表す「月」の周辺単語には「回」や「万」,「円」のように単位や金額が周辺単語に現れる頻度が高いこと,曜日の「月」は(月)のように表記されやすいことがわかった.