BERTとは,Bidirectional Encoder Representations from Transformersの略で,「Transformerによる双方向のエンコード表現」と訳され,2018年10月にGoogleのJacob Devlinらの論文で発表された自然言語処理モデルである[9].従来の自然言語処理では,大量のラベルのついたデータを用意させ,処理を行うことで課題に取り組む.しかし従来の手法に対し,BERTは事前学習でラベルのないデータをはじめに大量に処理を行う.その後,ファインチューニングで少量のラベルのついたデータを使用することで課題に対応させる.
本研究では,日本語Wikipedia全文(約1,800万文)を用いて事前学習されたモデル,京都大学の黒橋・村脇研究室で公開されている学習済みBERTモデル[10]を使用する.このモデルでは,JUMAN++によって形態素解析を行い,Byte Pair Encoding(BPE)によってsubwordに分割する.また基本的なモデルの設定については,ベースのTransformerの層数L=12,隠れベクトルの次元数H=768,Multi-headのSelf-Attention機構のヘッド数A=12であり,この値は一般に配布されている英語の事前学習済みモデルと等しい.
またBERTのモデルでの損失関数は,クラス分類問題を解く基本的なSoftmax Cross Entropy Lossを用いる.Softmax Cross Entropy Lossは式(3.3),式(3.4)で表される.