BERT

BERTとは,Bidirectional Encoder Representations from Transformersの略で,「Transformerによる双方向のエンコード表現」と訳され,2018年10月にGoogleのJacob Devlinらの論文で発表された自然言語処理モデルである[9].従来の自然言語処理では,大量のラベルのついたデータを用意させ,処理を行うことで課題に取り組む.しかし従来の手法に対し,BERTは事前学習でラベルのないデータをはじめに大量に処理を行う.その後,ファインチューニングで少量のラベルのついたデータを使用することで課題に対応させる.

本研究では,日本語Wikipedia全文(約1,800万文)を用いて事前学習されたモデル,京都大学の黒橋・村脇研究室で公開されている学習済みBERTモデル[10]を使用する.このモデルでは,JUMAN++[*]によって形態素解析を行い,Byte Pair Encoding(BPE)によってsubwordに分割する.また基本的なモデルの設定については,ベースのTransformerの層数L=12,隠れベクトルの次元数H=768,Multi-headのSelf-Attention機構のヘッド数A=12であり,この値は一般に配布されている英語の事前学習済みモデルと等しい.

またBERTのモデルでの損失関数は,クラス分類問題を解く基本的なSoftmax Cross Entropy Lossを用いる.Softmax Cross Entropy Lossは式(3.3),式(3.4)で表される.


23#23     (3)


24#24     (4)

式(3.3)のSoftmax関数によって複数値からなるベクトルの入力に対して,正規化したベクトルを出力する.そのとき出力されるベクトルは合計値が1になる.本実験では出力されたベクトルを確率とみなし,段落の分割,非分割の2クラス分類問題にあてることで段落の推定を行う.