本研究は, 教師あり機械学習を用いることにより, 毎日新聞のテキストデータから日経平均の騰落の予測を行う. また, 機械学習が使用した素性を分析することで株式相場や経済に関わる知見を取得することを目指す. 機械学習の学習データには, 毎日新聞のテキストデータを用いる.
本研究の成果は2つある. 1つ目は, 日経平均の予測の実験で, 毎日新聞の朝刊からその日の始値と終値の差の予測を行った. 機械学習の分類先を上昇・下降・変化なしの3分類としたとき, 正解率は一番高いもので0.453であり, ある程度の予測は行えていた. Buy&Hold法をベースラインとして, 年間の平均利益と年間の赤字の最低値を比較すると, 平均利益は7割程度となっているが, 赤字の最低値は半分以下であった. 提案手法では, 利益に対して赤字の最低値が低くなっており, ベースライン手法より有用な点もあった.
2つ目は, 機械学習に使った素性の分析を行ったことにより, 新聞記事から株式相場や経済に関わる知見を抽出できたことである. まず, 毎日新聞の朝刊から2日前の終値と前日の終値の差の推定を行った. 次に機械学習に使った素性の株価上昇の正規化α値が上位のものと下位のものを調べ, それらを人手で考察し, また, 頻度の分析を行うことで株式相場や経済に関わる知見を取得することができた.