概要

本研究は,教師あり機械学習と統計的検定を用いることにより, 毎日新聞のテキストデータから単語対に関わる有益な情報(本稿では素性とする)を取り出す.教師あり機械学習と統計的検定で取り出した素性を分析・評価することを本研究の目的とする.

本研究の成果は2つある.1つ目は,知見獲得の実験で,教師あり機械学習と統計的検定を用いて新聞記事から様々な分野の単語対に関する素性を取り出し,分析することで様々な分野の知見を得ることができたことである. 教師あり機械学習は,新聞データに単語対(A,B)が含む文章を機械に学習させ,その文章の分類先をA,Bとして推定し,その手がかりとなった素性を取り出し,分析することで知見獲得を行った. 統計的検定では,新聞データに単語対(A,B)が含む文章からA,Bと共起する単語の共起回数を基にA,Bの素性を取り出し,分析することで知見獲得を行った.

2つ目は,教師あり機械学習と統計的検定で収集した単語対の素性を複数の評価実験を通じて,教師あり機械学習と統計的検定の知見獲得の有用性を示したことである. 評価実験は3つ行った.1つ目は,Word2vecで収集した単語対の素性との比較である.Word2vecは,単語対と類似性のある素性を収集することができる.そのWord2vecで収集した単語対の素性500個と教師あり機械学習で収集した単語対の素性500個,統計的検定で収集した単語対の素性500個との一致数で評価した. その一致数の平均は教師あり機械学習が30.6個,統計的検定が70.3個であった. 2つ目の評価実験は,人手で連想した語句30個とそれぞれの手法で得た単語対の素性500個との一致数で評価した. 筆者が連想した単語対の語句との一致数の平均は,教師あり機械学習が7.9個,統計的検定が11.3個であった. 3つ目の評価実験は,それぞれの手法で得た単語対の素性100個を有益性の観点から人手で評価した. 筆者が行った評価の比率は,教師あり機械学習が0.14,統計的検定が0.07であった. また,2つ目と3つ目の評価実験を筆者以外の被験者3名による被験者実験を行った. 連想語句との一致数の平均は,教師あり機械学習が6.7個,統計的検定が10.4個であった. 有益性における比率は,教師あり機械学習が0.085,統計的検定が0.059であった. 教師あり機械学習は,役に立つ知見につながるような語句の収集に優れていることがわかり, 統計的検定は,単語対と類似度が高い素性や人が連想できる語句など一般的な語句の収集に優れていることがわかった.