パターンと教師あり機械学習と素性分析を利用したウェブと新聞からの株式相場に関わる知見獲得

村田ら[1] は,パターンと教師あり機械学習と素性分析を利用して株式相場の知見獲得を行った.データには,ウェブと新聞を利用し,株価の騰落に関わるパターンで収集した.ウェブでは「X による株価上昇」と「X による株価下落」のパターンでウェブから文章を収集し,X に相当する部分を入力テキストデータとする。例えば,「原油価格の混乱による株価下落」の表現から入力テキストとして「原油価格の混乱」を得る.新聞では,「東京株式市場X 日経平均株価…前日終値比」というパターンで抜き出し,X に相当する部分を入力テキストデータとする.例えば,「10日の東京株式市場は、前日の株価上昇に対し利益確定の売りが広がり日経平均株価は反落、一時、前日終値比306円92銭安の1万6930円85銭まで値を下げた。」という表現から,入力テキストとして,「は、前日の株価上昇に対し利益確定の売りが広がり」を得る.村田ら[1]は入力テキストデータを入力として,株価上昇であるかいなかを出力として,教師あり機械学習を行った.素性には,入力テキスト中の全ての1 から3 個の単語連続を用いて,最大エントロピー法で株価上昇か下落かを調べた.素性分析による知見獲得には,全データを最大エントロピー法で求まるα 値を正規化した値(正規化α)を求めた.その値が大きい素性を抽出することで,株式相場に関する重要な知見獲得を行った.