評価実験に対する考察

本節では,5.2.1節,5.2.2節,5.2.3節に示した評価実験の結果に対する考察を記述する.

5.2.1節で記述したWord2vecを用いた評価実験では,最大エントロピー法で収集した単語対の素性とWord2vecで収集した単語対の素性との一致数の平均が30.6個,符号検定で収集した単語対の素性とWord2vecで収集した単語対の素性との一致数の平均値が70.3個であり,符号検定で収集した単語対の素性の方が最大エントロピー法で収集した素性よりもWord2vecで収集した単語対の素性との一致数が多かった. また,5.2.2節と5.2.3節で記述した人手評価における連想語句との一致数においては,筆者の連想語句一致数の平均が最大エントロピー法が7.9個,符号検定が11.3個,被験者3名による連想語句との一致数の平均は最大エントロピー法が6.7個,符号検定が10.4個であった. よって,符号検定は人が考えつくような一般的な語句の収集には優れていることがわかった. 単語対に関わる一般的な語句は,単語対と共起する回数が多くなるため,単に共起回数を基に統計的に収集した符号検定の方が最大エントロピー法よりも一般的で人が考えつくような語句の収集には優れていると考えた.

5.2.2節と5.2.3節で記述した有益性における人手評価においては,筆者の最大エントロピー法の評価の比率は,◎が0.14,○が0.63,×が0.23で,符号検定の評価の比率は,◎が0.07,○が0.70,×0.23であった. また,被験者の最大エントロピー法の評価の比率は,◎が0.085,○が0.42,×が0.49で符号検定の評価の比率は,◎が0.059,○が0.52,×が0.42であった. 最大エントロピー法の方が符号検定よりも◎の比率が多いため,最大エントロピー法が符号検定に比べて役立つ単語対の素性の収集には優れていることがわかった. 最大エントロピー法は,学習を繰り返し,単語対の分類の推定を行うことで,その手がかりとなる素性を取り出しているので,単に単語対と共起する単語を収集している符号検定に比べれば,より多くの役に立つ素性の収集ができるのではないかと考えた. 評価方法の妥当性を調べるために,被験者3名の評価結果の一致度を表すKappa値[9]を計算した. Kappa値は0.44であった. 役に立つと考えられる素性は人によって異なると考えられるが,被験者間の評価は適度に一致していることがわかり,評価方法にはある程度の妥当性があったことがわかる.

筆者と被験者の有益性の評価で一致数が多かった例として, 最大エントロピー法で得た政治の素性では「パーティー」や「ネット」や「天皇」,経済では「リーマン」や「アベノミクス」が筆者,被験者ともに◎の個数が多く,役に立つ素性として考えられた. また,符号検定を用いた有益性の評価では,政治では「パーティー」や「トランプ」や「虚偽」,経済では「日銀」や「原油」や「資源」が筆者,被験者ともに◎の個数が多く,役に立つ素性として考えられた.

5.13より輸出の連想語句と最大エントロピー法で収集した素性の一致数が0.3個で最も低いが,表5.16より,最大エントロピー法で収集した輸出の素性の◎の個数が13.0個で最も多かった. このことから,輸出が最も最大エントロピー法の知見獲得の有用性を示すことのできたキーワードであることがわかる. 最大エントロピー法で得た輸出の素性の中で被験者が◎として評価した例は,「サバ」や「精液」や「受精卵」などがあった. 主な輸出品以外のあまり知られていない輸出品などが多く,新たな知見に繋がるような語句が多く収集できたのではないかと考えた.

有益性の評価において,符号検定と比較することで最大エントロピー法の有用性を示すことができたが,最大エントロピー法の◎の比率が0.10付近であり,絶対的に有用な方法とは言い難い. 最大エントロピー法を用いてより多くの役に立つ素性を得るために,正解率を向上させた学習データを用いることが今後の課題である. 本研究では,Word2vecを用いた評価実験を行うために1単語の素性で機械学習を行ったが,1から3単語連続の素性を利用することで正解率の向上を期待できるのではないかと考えた. また,1単語のみではなく1から3単語連続の単語であれば人が考えつく一般的な知見よりも多くの役に立つ知見が得られるのではないかと考える.