新聞記事時系列テキストによる株式市場の動向予測

松井ら[1]は, 定期的に発行されるテキスト・データを時系列データと捉えることによって, テキストの差分に着目した分析を行い, 予測対象の動きを予測する. この研究ではこれを時系列テキスト分析と呼び, 新聞記事を対象とした時系列テキスト分析の手法を提案した. この手法は, 分析する時点のテキスト・データとその直前のテキスト・データを比較し, 新たに出現した語, 続けて出現している語, 消滅した語を特徴語として抽出して特徴ベクトルを作成し, SVMを用いてテキストの変化と市場の変化の関係を学習している. この結果を日本経済新聞の記事に適用し, 東証株価指数(TOPIX)の日中の騰落を予測した.

評価実験では, 日本経済新聞を対象として, 予測対象日の前営業日の夕刊から予測対象日の朝刊までを一つのテキストとし, その見出しのみを用いた. 予測対象は2008年から2013年までの東証株価指数(TOPIX)連動型上場投資信託(ETF)とし, 予測対象日の寄りから引けにかけてTOPIX ETFの取引価格が上昇するか下落するか(終値が始値よりも高いか低いか)を予測した. 訓練データの期間は, 予測対象日の直近の過去5年間とした. 実験の結果, 全体の正解率は0.714であり, 最も予測精度が低い年でも正解率が0.563であった. また, この予測に基づく運用シミュレーションの平均年間利益率は149%であった.