BERT(重複なし)は,MRRを用いた評価方法と1位正解率を用いた評価方法において,2単語間の関係を分かりやすくするには不十分な部分がある場合も正解とする基準では,3つの従来手法よりも性能が高かったが,2単語の関係を示すものとして適切な場合を正解とする基準と,2単語間の関係を示すものとして適切であるが,余分な部分がある場合を正解とする基準では,頻度大と割り算よりも性能が低かった.また,word2vec(重複なし)と比較すると,全ての評価方法の全ての評価基準でBERT(重複なし)の方が性能が低かった.本研究では,BERTのFine-tuningを行っておらず,要約抽出に適していないモデルであることが,BERT(重複なし)の性能が低い原因であると考えられる.
また、BERT(重複あり)はBERT(重複なし)と比べて,MRRを用いた評価方法と1位正解率を用いた評価方法の,全ての基準で性能が高かった.原因として,重心の算出に同一の文字列を含めることで,頻度が大きい文字列の優先度が高くなり,頻度大に近い性能になるためではないかと考えられる.