各手法で有意差を調べるために片側検定の t 検定を行った.3つの従来手法と4つの提案手法の性能を,MRRを用いた評価結果,1位正解率を用いた評価結果,5位正解率を用いた評価結果でそれぞれ比較した.「トヨタ」,「宇宙」,「ギリシャ」の3つのネットワークを合わせた場合の評価結果の計60個のデータを用いた.ここで,有意水準は5%である.MRRを用いた場合の,2単語の関係を示すものとして適切な場合を正解とする基準での検定結果(p値)を表に示す.MRRを用いた場合の,適切であるが余分な部分がある場合も正解とする基準での検定結果(p値)を表に示す.MRRを用いた場合の,2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準での検定結果(p値)を表に示す.1位正解率を用いた場合の,2単語の関係を示すものとして適切な場合を正解とする基準での検定結果(p値)を表に示す.1位正解率を用いた場合の,適切であるが余分な部分がある場合も正解とする基準での検定結果(p値)を表に示す.1位正解率を用いた場合の,2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準での検定結果(p値)を表に示す.5位正解率を用いた場合の,2単語の関係を示すものとして適切な場合を正解とする基準での検定結果(p値)を表に示す.5位正解率を用いた場合の,適切であるが余分な部分がある場合も正解とする基準での検定結果(p値)を表に示す.5位正解率を用いた場合の,2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準での検定結果(p値)を表に示す.
Table:
「トヨタ」「宇宙」「ギリシャ」のMRRの片側検定(○の評価基準)
|
文字長小 |
割り算 |
BERT |
word2vec |
BERT |
word2vec |
|
|
|
|
|
|
|
|
|
|
(重複なし) |
(重複なし) |
(重複あり) |
(重複あり) |
|
|
|
|
|
|
|
頻度大 |
0.005 |
0.248 |
0.236 |
0.039 |
0.410 |
0.459 |
|
|
|
|
|
|
|
文字長小 |
|
0.021 |
0.114 |
0.002 |
0.014 |
0.025 |
|
|
|
|
|
|
|
割り算 |
|
|
0.351 |
0.042 |
0.308 |
0.363 |
|
|
|
|
|
|
|
BERT(重複なし) |
|
|
|
0.036 |
0.144 |
0.285 |
|
|
|
|
|
|
|
word2vec(重複なし) |
|
|
|
|
0.146 |
0.051 |
|
|
|
|
|
|
|
BERT(重複あり) |
|
|
|
|
|
0.395 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Table:
「トヨタ」「宇宙」「ギリシャ」のMRRの片側検定(○□の評価基準)
|
文字長小 |
割り算 |
BERT |
word2vec |
BERT |
word2vec |
|
|
|
|
|
|
|
|
|
|
(重複なし) |
(重複なし) |
(重複あり) |
(重複あり) |
|
|
|
|
|
|
|
頻度大 |
0.004 |
0.153 |
0.205 |
0.087 |
0.436 |
0.387 |
|
|
|
|
|
|
|
文字長小 |
|
0.011 |
0.060 |
0.001 |
0.017 |
0.005 |
|
|
|
|
|
|
|
割り算 |
|
|
0.394 |
0.044 |
0.343 |
0.184 |
|
|
|
|
|
|
|
BERT(重複なし) |
|
|
|
0.012 |
0.212 |
0.179 |
|
|
|
|
|
|
|
word2vec(重複なし) |
|
|
|
|
0.078 |
0.107 |
|
|
|
|
|
|
|
BERT(重複あり) |
|
|
|
|
|
0.348 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Table:
「トヨタ」「宇宙」「ギリシャ」のMRRの片側検定(○□△の評価基準)
|
文字長小 |
割り算 |
BERT |
word2vec |
BERT |
word2vec |
|
|
|
|
|
|
|
|
|
|
(重複なし) |
(重複なし) |
(重複あり) |
(重複あり) |
|
|
|
|
|
|
|
頻度大 |
0.001 |
0.419 |
0.288 |
0.092 |
0.134 |
0.219 |
|
|
|
|
|
|
|
文字長小 |
|
0.000 |
0.001 |
0.000 |
0.000 |
0.006 |
|
|
|
|
|
|
|
割り算 |
|
|
0.269 |
0.090 |
0.132 |
0.343 |
|
|
|
|
|
|
|
BERT(重複なし) |
|
|
|
0.274 |
0.324 |
0.185 |
|
|
|
|
|
|
|
word2vec(重複なし) |
|
|
|
|
0.421 |
0.034 |
|
|
|
|
|
|
|
BERT(重複あり) |
|
|
|
|
|
0.038 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Table:
「トヨタ」「宇宙」「ギリシャ」の1位正解率の片側検定(○の評価基準)
|
文字長小 |
割り算 |
BERT |
word2vec |
BERT |
word2vec |
|
|
|
|
|
|
|
|
|
|
(重複なし) |
(重複なし) |
(重複あり) |
(重複あり) |
|
|
|
|
|
|
|
頻度大 |
0.091 |
0.284 |
0.392 |
0.029 |
0.242 |
0.080 |
|
|
|
|
|
|
|
文字長小 |
|
0.022 |
0.266 |
0.029 |
0.048 |
0.029 |
|
|
|
|
|
|
|
割り算 |
|
|
0.299 |
0.084 |
0.383 |
0.329 |
|
|
|
|
|
|
|
BERT(重複なし) |
|
|
|
0.045 |
0.185 |
0.222 |
|
|
|
|
|
|
|
word2vec(重複なし) |
|
|
|
|
0.144 |
0.104 |
|
|
|
|
|
|
|
BERT(重複あり) |
|
|
|
|
|
0.500 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Table:
「トヨタ」「宇宙」「ギリシャ」の1位正解率の片側検定(○□の評価基準)
|
文字長小 |
割り算 |
BERT |
word2vec |
BERT |
word2vec |
|
|
|
|
|
|
|
|
|
|
(重複なし) |
(重複なし) |
(重複あり) |
(重複あり) |
|
|
|
|
|
|
|
頻度大 |
0.002 |
0.329 |
0.311 |
0.084 |
0.500 |
0.080 |
|
|
|
|
|
|
|
文字長小 |
|
0.001 |
0.022 |
0.000 |
0.003 |
0.000 |
|
|
|
|
|
|
|
割り算 |
|
|
0.410 |
0.067 |
0.392 |
0.130 |
|
|
|
|
|
|
|
BERT(重複なし) |
|
|
|
0.035 |
0.284 |
0.175 |
|
|
|
|
|
|
|
word2vec(重複なし) |
|
|
|
|
0.100 |
0.205 |
|
|
|
|
|
|
|
BERT(重複あり) |
|
|
|
|
|
0.242 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Table:
「トヨタ」「宇宙」「ギリシャ」の1位正解率の片側検定(○□△の評価基準)
|
文字長小 |
割り算 |
BERT |
word2vec |
BERT |
word2vec |
|
|
|
|
|
|
|
|
|
|
(重複なし) |
(重複なし) |
(重複あり) |
(重複あり) |
|
|
|
|
|
|
|
頻度大 |
0.003 |
0.500 |
0.410 |
0.055 |
0.066 |
0.284 |
|
|
|
|
|
|
|
文字長小 |
|
0.002 |
0.003 |
0.000 |
0.000 |
0.008 |
|
|
|
|
|
|
|
割り算 |
|
|
0.415 |
0.067 |
0.084 |
0.371 |
|
|
|
|
|
|
|
BERT(重複なし) |
|
|
|
0.035 |
0.104 |
0.329 |
|
|
|
|
|
|
|
word2vec(重複なし) |
|
|
|
|
0.392 |
0.026 |
|
|
|
|
|
|
|
BERT(重複あり) |
|
|
|
|
|
0.029 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Table:
「トヨタ」「宇宙」「ギリシャ」の5位正解率の片側検定(○の評価基準)
|
文字長小 |
割り算 |
BERT |
word2vec |
BERT |
word2vec |
|
|
|
|
|
|
|
|
|
|
(重複なし) |
(重複なし) |
(重複あり) |
(重複あり) |
|
|
|
|
|
|
|
頻度大 |
0.002 |
0.022 |
0.205 |
0.329 |
0.029 |
0.104 |
|
|
|
|
|
|
|
文字長小 |
|
0.041 |
0.054 |
0.009 |
0.083 |
0.067 |
|
|
|
|
|
|
|
割り算 |
|
|
0.405 |
0.130 |
0.383 |
0.500 |
|
|
|
|
|
|
|
BERT(重複なし) |
|
|
|
0.311 |
0.242 |
0.405 |
|
|
|
|
|
|
|
word2vec(重複なし) |
|
|
|
|
0.104 |
0.091 |
|
|
|
|
|
|
|
BERT(重複あり) |
|
|
|
|
|
0.392 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Table:
「トヨタ」「宇宙」「ギリシャ」の5位正解率の片側検定(○□の評価基準)
|
文字長小 |
割り算 |
BERT |
word2vec |
BERT |
word2vec |
|
|
|
|
|
|
|
|
|
|
(重複なし) |
(重複なし) |
(重複あり) |
(重複あり) |
|
|
|
|
|
|
|
頻度大 |
0.035 |
0.091 |
0.100 |
0.370 |
0.066 |
0.084 |
|
|
|
|
|
|
|
文字長小 |
|
0.126 |
0.299 |
0.067 |
0.299 |
0.320 |
|
|
|
|
|
|
|
割り算 |
|
|
0.311 |
0.284 |
0.299 |
0.299 |
|
|
|
|
|
|
|
BERT(重複なし) |
|
|
|
0.104 |
0.500 |
0.500 |
|
|
|
|
|
|
|
word2vec(重複なし) |
|
|
|
|
0.051 |
0.051 |
|
|
|
|
|
|
|
BERT(重複あり) |
|
|
|
|
|
0.500 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Table:
「トヨタ」「宇宙」「ギリシャ」の5位正解率の片側検定(○□△の評価基準)
|
文字長小 |
割り算 |
BERT |
word2vec |
BERT |
word2vec |
|
|
|
|
|
|
|
|
|
|
(重複なし) |
(重複なし) |
(重複あり) |
(重複あり) |
|
|
|
|
|
|
|
頻度大 |
0.022 |
0.161 |
0.209 |
0.161 |
0.209 |
0.329 |
|
|
|
|
|
|
|
文字長小 |
|
0.042 |
0.242 |
0.209 |
0.242 |
0.130 |
|
|
|
|
|
|
|
割り算 |
|
|
0.354 |
0.284 |
0.354 |
0.500 |
|
|
|
|
|
|
|
BERT(重複なし) |
|
|
|
0.500 |
0.500 |
0.375 |
|
|
|
|
|
|
|
word2vec(重複なし) |
|
|
|
|
0.500 |
0.284 |
|
|
|
|
|
|
|
BERT(重複あり) |
|
|
|
|
|
0.354 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
検定の結果,word2vec(重複なし)は,MRRを用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,頻度大,文字長小,割り算,BERT(重複なし)との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小,割り算,BERT(重複なし)との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小,word2vec(重複あり)との間で有意差があった.1位正解率を用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,頻度大,文字長小,BERT(重複なし)との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小,BERT(重複なし)との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小,BERT(重複なし),word2vec(重複あり)との間で有意差があった.5位正解率を用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,文字長小,word2vec(重複あり)との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小との間で有意差があった.
BERT(重複なし)は,MRRを用いた評価方法の場合,2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小との間で有意差があった.1位正解率を用いた評価方法の場合,適切であるが余分な部分がある場合も正解とする基準では,文字長小との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小との間で有意差があった.
word2vec(重複あり)は,MRRを用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,文字長小との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小との間で有意差があった.1位正解率を用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,文字長小との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小との間で有意差があった.
BERT(重複なし)は,MRRを用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,文字長小との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小,word2vec(重複あり)との間で有意差があった.1位正解率を用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,文字長小との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小,word2vec(重複あり)との間で有意差があった.