リンクに付与する文字列選定の提案手法
本研究では,節の手順3において優先度を求める際,頻度を用いるのではなく文字列をベクトル化し,その重心を利用する.
リンク間に付与する文字列の付与手順を以下に示す.また,n個の記事から文字列Bを抽出し,文ベクトルの重心を求める手順を図示したものを図に示す.
- 手順1
- BERTとword2vecの2種類の方法を用いて,文字列Bをベクトルで表現する.word2vecを用いる際には,Mecabを用いて文字列Bを単語ごとに分かち書きし,それらの単語を全てベクトルに変換し,その平均をとって文字列Bの文ベクトルを得る.
- 手順2
- ベクトル表現された文字列Bの重心を求める.重心を求める際,同一の文字列を含めて算出する方法と同一の文字列は1度しか計算に含めない方法の2種類の方法で算出を行う.
- 手順3
- 求めた重心との類似度が高い順に文字列Bの順位付けを行い,最も重心に近い文字列Bを要約として付与する.
以降,word2vecを用い,同一の文字列を含めて算出する方法を「word2vec(重複あり)」,word2vecを用い,同一の文字列は1度しか計算に含めない方法を「word2vec(重複なし)」,BERTを用い,同一の文字列を含めて算出する方法を「BERT(重複あり)」,BERTを用い,同一の文字列は1度しか計算に含めない方法を「BERT(重複なし)」と表記する.