最大エントロピー法で得られた単語対の素性500個とWord2vecで得られた単語対の素性500個との一致数と符号検定で得られた単語対の素性500個とWord2vecで得られた素性500個との一致数を表5.1に示す.
表5.1より,最大エントロピー法で得られた単語対の素性よりも符号検定で得られた単語対の素性の方がWord2vecで得られた各単語対の素性との一致数が多い.先述したとおり,Word2vecは単語をベクトル化することで入力された単語と意味の近い単語を収集することができるので,単語対と関連性のある単語を収集することができる.
表5.1の結果で各単語対のWord2vecとの一致数で最大エントロピー法と符号検定のt検定の両側検定により有意差検定を行った.p値が0.00647であり有意水準5%以下であるので有意差がみられた.
従って,最大エントロピー法よりも符号検定の方が関連語句を取り出すのに適していることがわかる.
Table 5.1:
Word2vecで得られた素性500個との一致数
単語対 |
ME |
符号検定 |
政治 |
35 |
94 |
経済 |
65 |
160 |
輸入 |
47 |
101 |
輸出 |
39 |
109 |
社会主義 |
5 |
4 |
資本主義 |
4 |
3 |
オリンピック |
30 |
60 |
パラリンピック |
20 |
31 |
平均 |
30.6 |
70.3 |