有意差検定

各手法で有意差を調べるために片側検定の t 検定を行った.3つの従来手法と4つの提案手法の性能を,MRRを用いた評価結果,1位正解率を用いた評価結果,5位正解率を用いた評価結果でそれぞれ比較した.「トヨタ」,「宇宙」,「ギリシャ」の3つのネットワークを合わせた場合の評価結果の計60個のデータを用いた.ここで,有意水準は5%である.MRRを用いた場合の,2単語の関係を示すものとして適切な場合を正解とする基準での検定結果(p値)を表[*]に示す.MRRを用いた場合の,適切であるが余分な部分がある場合も正解とする基準での検定結果(p値)を表[*]に示す.MRRを用いた場合の,2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準での検定結果(p値)を表[*]に示す.1位正解率を用いた場合の,2単語の関係を示すものとして適切な場合を正解とする基準での検定結果(p値)を表[*]に示す.1位正解率を用いた場合の,適切であるが余分な部分がある場合も正解とする基準での検定結果(p値)を表[*]に示す.1位正解率を用いた場合の,2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準での検定結果(p値)を表[*]に示す.5位正解率を用いた場合の,2単語の関係を示すものとして適切な場合を正解とする基準での検定結果(p値)を表[*]に示す.5位正解率を用いた場合の,適切であるが余分な部分がある場合も正解とする基準での検定結果(p値)を表[*]に示す.5位正解率を用いた場合の,2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準での検定結果(p値)を表[*]に示す.


Table: 「トヨタ」「宇宙」「ギリシャ」のMRRの片側検定(○の評価基準)
文字長小 割り算 BERT word2vec BERT word2vec
(重複なし) (重複なし) (重複あり) (重複あり)
頻度大 0.005 0.248 0.236 0.039 0.410 0.459
文字長小 0.021 0.114 0.002 0.014 0.025
割り算 0.351 0.042 0.308 0.363
BERT(重複なし) 0.036 0.144 0.285
word2vec(重複なし) 0.146 0.051
BERT(重複あり) 0.395


Table: 「トヨタ」「宇宙」「ギリシャ」のMRRの片側検定(○□の評価基準)
文字長小 割り算 BERT word2vec BERT word2vec
(重複なし) (重複なし) (重複あり) (重複あり)
頻度大 0.004 0.153 0.205 0.087 0.436 0.387
文字長小 0.011 0.060 0.001 0.017 0.005
割り算 0.394 0.044 0.343 0.184
BERT(重複なし) 0.012 0.212 0.179
word2vec(重複なし) 0.078 0.107
BERT(重複あり) 0.348


Table: 「トヨタ」「宇宙」「ギリシャ」のMRRの片側検定(○□△の評価基準)
文字長小 割り算 BERT word2vec BERT word2vec
(重複なし) (重複なし) (重複あり) (重複あり)
頻度大 0.001 0.419 0.288 0.092 0.134 0.219
文字長小 0.000 0.001 0.000 0.000 0.006
割り算 0.269 0.090 0.132 0.343
BERT(重複なし) 0.274 0.324 0.185
word2vec(重複なし) 0.421 0.034
BERT(重複あり) 0.038


Table: 「トヨタ」「宇宙」「ギリシャ」の1位正解率の片側検定(○の評価基準)
文字長小 割り算 BERT word2vec BERT word2vec
(重複なし) (重複なし) (重複あり) (重複あり)
頻度大 0.091 0.284 0.392 0.029 0.242 0.080
文字長小 0.022 0.266 0.029 0.048 0.029
割り算 0.299 0.084 0.383 0.329
BERT(重複なし) 0.045 0.185 0.222
word2vec(重複なし) 0.144 0.104
BERT(重複あり) 0.500


Table: 「トヨタ」「宇宙」「ギリシャ」の1位正解率の片側検定(○□の評価基準)
文字長小 割り算 BERT word2vec BERT word2vec
(重複なし) (重複なし) (重複あり) (重複あり)
頻度大 0.002 0.329 0.311 0.084 0.500 0.080
文字長小 0.001 0.022 0.000 0.003 0.000
割り算 0.410 0.067 0.392 0.130
BERT(重複なし) 0.035 0.284 0.175
word2vec(重複なし) 0.100 0.205
BERT(重複あり) 0.242


Table: 「トヨタ」「宇宙」「ギリシャ」の1位正解率の片側検定(○□△の評価基準)
文字長小 割り算 BERT word2vec BERT word2vec
(重複なし) (重複なし) (重複あり) (重複あり)
頻度大 0.003 0.500 0.410 0.055 0.066 0.284
文字長小 0.002 0.003 0.000 0.000 0.008
割り算 0.415 0.067 0.084 0.371
BERT(重複なし) 0.035 0.104 0.329
word2vec(重複なし) 0.392 0.026
BERT(重複あり) 0.029


Table: 「トヨタ」「宇宙」「ギリシャ」の5位正解率の片側検定(○の評価基準)
文字長小 割り算 BERT word2vec BERT word2vec
(重複なし) (重複なし) (重複あり) (重複あり)
頻度大 0.002 0.022 0.205 0.329 0.029 0.104
文字長小 0.041 0.054 0.009 0.083 0.067
割り算 0.405 0.130 0.383 0.500
BERT(重複なし) 0.311 0.242 0.405
word2vec(重複なし) 0.104 0.091
BERT(重複あり) 0.392


Table: 「トヨタ」「宇宙」「ギリシャ」の5位正解率の片側検定(○□の評価基準)
文字長小 割り算 BERT word2vec BERT word2vec
(重複なし) (重複なし) (重複あり) (重複あり)
頻度大 0.035 0.091 0.100 0.370 0.066 0.084
文字長小 0.126 0.299 0.067 0.299 0.320
割り算 0.311 0.284 0.299 0.299
BERT(重複なし) 0.104 0.500 0.500
word2vec(重複なし) 0.051 0.051
BERT(重複あり) 0.500


Table: 「トヨタ」「宇宙」「ギリシャ」の5位正解率の片側検定(○□△の評価基準)
文字長小 割り算 BERT word2vec BERT word2vec
(重複なし) (重複なし) (重複あり) (重複あり)
頻度大 0.022 0.161 0.209 0.161 0.209 0.329
文字長小 0.042 0.242 0.209 0.242 0.130
割り算 0.354 0.284 0.354 0.500
BERT(重複なし) 0.500 0.500 0.375
word2vec(重複なし) 0.500 0.284
BERT(重複あり) 0.354

検定の結果,word2vec(重複なし)は,MRRを用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,頻度大,文字長小,割り算,BERT(重複なし)との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小,割り算,BERT(重複なし)との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小,word2vec(重複あり)との間で有意差があった.1位正解率を用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,頻度大,文字長小,BERT(重複なし)との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小,BERT(重複なし)との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小,BERT(重複なし),word2vec(重複あり)との間で有意差があった.5位正解率を用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,文字長小,word2vec(重複あり)との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小との間で有意差があった. BERT(重複なし)は,MRRを用いた評価方法の場合,2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小との間で有意差があった.1位正解率を用いた評価方法の場合,適切であるが余分な部分がある場合も正解とする基準では,文字長小との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小との間で有意差があった. word2vec(重複あり)は,MRRを用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,文字長小との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小との間で有意差があった.1位正解率を用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,文字長小との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小との間で有意差があった. BERT(重複なし)は,MRRを用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,文字長小との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小,word2vec(重複あり)との間で有意差があった.1位正解率を用いた評価方法の場合,2単語の関係を示すものとして適切な場合を正解とする基準では,文字長小との間で有意差があった.適切であるが余分な部分がある場合も正解とする基準では,文字長小との間で有意差があった.2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,文字長小,word2vec(重複あり)との間で有意差があった.