近年,電子テキストが増加し,大量の電子テキストから重要な情報を素早く得ることが求められている.
先行研究[1]では教師あり機械学習を利用してウェブと新聞から株式相場における知見の収集が行われている.先行研究[2]では統計的検定を利用した使い分けに関する知見の収集が行われている.しかし,先行研究[1]では「株価上昇」「株価下降」に対象が限定されておりその他の事象で研究がなされていない.また,それぞれの先行研究は人手での評価実験のみで,その他の手法との比較実験が行われていない. 本研究では, 機械学習の最大エントロピー法と統計的検定の符号検定を利用して, 新聞データから様々な分野の知見を獲得し,それぞれの手法の評価を行う.
本研究の主な主張点を以下に整理する.
本論文の構成は以下の通りである. 第2章では,本研究に関連する研究としてどのような研究が行われてきたかを記述し,その研究と本研究との関連を説明する. 第3章では,本研究で扱う問題の設定とそれを解決するために提案した手法について説明を行う. 第4章では,本研究で行った知見獲得における実験についての説明と,その実験の結果と考察について記述する. 第5章では,本研究で行った知見獲得における評価の実験についての説明と, その実験の結果と考察について記述する. 第6章では, 今後の課題について記述する. 第7章ではまとめを行う.