おわりに

本研究では,BERTと最大エントロピー法を用いて日本語文章の段落分割の推定を行い,どちらが優れているかを比較した.また最大エントロピー法では正規化α値を用いて分割,非分割に関する素性を,BERTでは3単語連続それぞれに対する出力値から素性分析を行い,非分割に関する素性を得た.

新聞記事と小説を学習データとテストデータとして実験を行った結果,新聞記事ではベースラインの正解率0.6743に対して,BERTの正解率は0.7564,最大エントロピー法の正解率は0.6959であった.小説ではベースラインの正解率0.8492に対して,BERTの正解率は0.8772,最大エントロピー法の正解率は0.8658であった.どちらの手法もベースラインを上回っており,新聞記事に対しての手法間の推定精度の差は0.0605と大きい.BERTのモデルを変更することで推定精度の向上が見込めるため,最大エントロピー法の精度が上回ることは難しい.今後はBERTの損失関数の変更,入力データの整形の変更など行い推定精度を向上させたい.

また,最大エントロピー法とBERTの結果から素性分析を行った.最大エントロピー法では正規化α値を使用することで素性分析を行い,分割,非分割に関する有用な素性を得ることができた.BERTでは,分割の推定で用いたテストデータを3単語ごとに分け,分けた3単語それぞれに対する分割,非分割の出力値から素性分析を行う新しい手法を提案した.非分割に関する素性を得ることはできたが,分割に関する素性は新聞記事で1個の素性しか得ることができなかった.BERTの素性分析の結果から,最大エントロピー法の素性分析には劣るが,BERTでも素性分析を行うことができると言える.しかし,BERTでは分割に関する素性を十分に得ることができていないことから,最大エントロピー法の方が有効な手法であると考えられる.今後はBERTでの素性分析において,テストデータの単語数を3単語から増やすことで分割に関する素性を得ることができるかを調査したい.