はじめに

近年，電子テキストが増加し，大量の電子テキストから重要な情報を素早く得ることが求められている．

先行研究[1]では教師あり機械学習を利用してウェブと新聞から株式相場における知見の収集が行われている．先行研究[2]では統計的検定を利用した使い分けに関する知見の収集が行われている．しかし，先行研究[1]では「株価上昇」「株価下降」に対象が限定されておりその他の事象で研究がなされていない．また，それぞれの先行研究は人手での評価実験のみで，その他の手法との比較実験が行われていない．本研究では, 機械学習の最大エントロピー法と統計的検定の符号検定を利用して, 新聞データから様々な分野の知見を獲得し，それぞれの手法の評価を行う．

本研究の主な主張点を以下に整理する．

最大エントロピー法と符号検定を利用することで様々な分野の単語対に関する一般的な情報や有益な情報の収集ができた．例として政治では，「献金」や「天皇」や「トランプ」などがあり，経済では，「アベノミクス」や「リーマン」や「インフレ」などがあった．
Word2vecで得た単語対の素性500個と最大エントロピー法と符号検定で得た単語対の素性500個との一致数の平均は，最大エントロピー法が30.6個，符号検定が70.3個であった．人手で連想した各単語対の語句30個とそれぞれの手法で得た単語対の素性500個との一致数の平均は，最大エントロピー法が7.9個，符号検定が11.3個であった．それぞれの手法で得た各単語対の素性100個を人手で評価した結果の有益性の比率は，最大エントロピー法が0.14，符号検定が0.07であった．よって，符号検定は，単語対と類似度が高い素性や人が連想できる語句など一般的な語句の収集に優れており，最大エントロピー法は，役に立つ知見につながるような語句の収集に優れている．

本論文の構成は以下の通りである．第2章では，本研究に関連する研究としてどのような研究が行われてきたかを記述し，その研究と本研究との関連を説明する．第3章では，本研究で扱う問題の設定とそれを解決するために提案した手法について説明を行う．第4章では，本研究で行った知見獲得における実験についての説明と，その実験の結果と考察について記述する．第5章では，本研究で行った知見獲得における評価の実験についての説明と, その実験の結果と考察について記述する. 第6章では, 今後の課題について記述する. 第7章ではまとめを行う．