類似度の計算

二つの日本語単語ACの類似度の値をsim(AC)とするとsim(AC)は以下の式3.1.1で計算する.

93#93    

count(X):集合Xの単語の総数 94#94, 95#95:単語A,Cの前後単語の集合

計算はOne-hotのword2vecに類似している. なお類似度の計算においては2単語連続を1単語として用いる. 式3.1.1を英語単語BDでも同様の計算を行いsim(BD)とする.