リンクに付与する文字列選定の提案手法

本研究では,[*]節の手順3において優先度を求める際,頻度を用いるのではなく文字列をベクトル化し,その重心を利用する. リンク間に付与する文字列の付与手順を以下に示す.また,n個の記事から文字列Bを抽出し,文ベクトルの重心を求める手順を図示したものを図[*]に示す.

手順1
BERTとword2vecの2種類の方法を用いて,文字列Bをベクトルで表現する.word2vecを用いる際には,Mecabを用いて文字列Bを単語ごとに分かち書きし,それらの単語を全てベクトルに変換し,その平均をとって文字列Bの文ベクトルを得る.
手順2
ベクトル表現された文字列Bの重心を求める.重心を求める際,同一の文字列を含めて算出する方法と同一の文字列は1度しか計算に含めない方法の2種類の方法で算出を行う.

手順3
求めた重心との類似度が高い順に文字列Bの順位付けを行い,最も重心に近い文字列Bを要約として付与する.

Figure: 重心の算出
\fbox{
\includegraphics[width=150mm]{juusinn.eps}
}
 以降,word2vecを用い,同一の文字列を含めて算出する方法を「word2vec(重複あり)」,word2vecを用い,同一の文字列は1度しか計算に含めない方法を「word2vec(重複なし)」,BERTを用い,同一の文字列を含めて算出する方法を「BERT(重複あり)」,BERTを用い,同一の文字列は1度しか計算に含めない方法を「BERT(重複なし)」と表記する.