BERTでの推定方法

本研究では,3.2.2節のBERTを用いて,文章の段落推定を行うために実験を行う.本研究で用いるBERTは事前学習済みのモデルであり,新規でラベルなしデータを用意する必要がない.また,本研究で使用したBERTでは,3.3.1節の最大エントロピー法と違って,入力データに空白部分があると実行できないなどの制約がある.そこで実験に用いるデータは,テキスト部分に図3.1のデータを,ラベルに整形前の文間箇所の段落,非段落情報を入れる.テキストとラベルでセットとした訓練データ,検証データ,テストデータの3種類を新聞記事,小説それぞれで用意し,段落分割の推定を行った.

入力データのテキスト部分は,2文章をそのまま接続したデータ1と2文章間を「★」で挟んだデータ2の2種類のデータを用意し,実験を行った.入力データのラベル部分は,元の文章に段落があった場合「T」,なかった場合「F」とすることで用意した.以下に実験に使用したデータ例を図3.1に示す.



Table 3.1: BERTで用いた入力データ
データ ラベル テキスト
データ1 F 久間章生元防衛相が自民党総務会長だった06年1月、福井県敦賀市の知人男性(64)から1億円を受領していたことが分かった。久間氏と男性は毎日新聞の取材に授受を認め「賃借関係」としているが、無担保で実行された形になっている。
データ2 F 久間章生元防衛相が自民党総務会長だった06年1月、福井県敦賀市の知人男性(64)から1億円を受領していたことが分かった。★久間氏と男性は毎日新聞の取材に授受を認め「賃借関係」としているが、無担保で実行された形になっている。

3.1のデータを用いる.推定方法は,3.2.2節のSoftmax関数を使うことで,文間箇所での分割,非分割に対する確率を算出する.その値が分割の値の方が大きいとき分割,非分割の値が大きいとき非分割とみなす.算出された値が,テストデータのラベルと一致するかで正解率を出力する.