word2vecを用いた手法の考察

word2vec(重複なし)は,MRRを用いた評価方法と1位正解率を用いた評価方法において,2単語の関係を示すものとして適切な場合を正解とする基準と,2単語間の関係を示すものとして適切であるが,余分な部分がある場合を正解とする基準と,2単語間の関係を分かりやすくするには不十分な部分がある場合も正解とする基準の3つの基準の全ての基準で,3つの従来手法よりも性能が高かった.5位正解率を用いた評価方法においては,word2vec(重複なし)は文字長小と割り算より高い性能となった.原因として,頻度や文字長は単語の意味や文の内容といった情報を含んでいないのに対し,word2vecを用いた手法では,文字列をベクトル化することで単語の意味や関係性などの情報を含んでいるためではないかと考えられる. また、word2vec(重複あり)はword2vec(重複なし)と比べて,5位正解率を用いた評価方法の,2単語間の関係を示すものとして適切であるが,余分な部分やさらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準を除く全ての基準で性能が低かった.原因として,重心の算出に同一の文字列を含めることで,頻度が大きい文字列の優先度が高くなり,頻度大に近い性能になるためではないかと考えられる.