評価データには,「トヨタ」「宇宙」「ギリシャ」のネットワークごとにランダムで取り出した,20単語対を用いる.すなわち,合計60単語対を用いる.また,評価する際の参考データとして,各単語対を含む記事をランダムで10記事ずつ抽出したものを用いる.各単語対に対して,第章で述べた節の手法の出力結果を重心ベクトルとの類似度が高い順にランク付けした上位5つまでの文字列を,抽出した記事を参考に,○□△×の4段階の評価を人手で行う.また,重心ベクトルを算出する手法を,word2vec(重複なし)とword2vec(重複あり)とBERT(重複なし)とBERT(重複あり)の4パターンの4段階評価を行う.単語対を「飛行」「船長」とした場合を例として,○の評価基準と評価例を表,□の評価基準と評価例を表,△の評価基準と評価例を表,×の評価基準と評価例を表に示す.
表を○と評価した理由は,「若田光一宇宙飛行士がISSの船長となった」という意味ととれる文字列が,「飛行」「船長」の単語間の関係性を無駄なく適切に表していると判断したからである.表を□と評価した理由は,2単語間の関係性を示すものとしては適切だが,「14日午前7時58分」という余分な部分があると判断したからである.表を△と評価した理由は,2単語間の関係性は適切に示しているのだが,さらに関係性を分かりやすくするためには,人名等の情報がなく,不十分な部分があると判断したからである.表を×と評価した理由は,参考データから決定した正解の情報とは違ったため,関係を示すものとしては不適切だと判断したからである.