本研究では,BERTと最大エントロピー法を用いて日本語文章の段落分割の推定を行い,どちらが優れているかを比較した.また最大エントロピー法では正規化α値を用いて分割,非分割に関する素性を,BERTでは3単語連続それぞれに対する出力値から素性分析を行い,非分割に関する素性を得たが,いくつかの問題が残っている.本章では,残っている問題を今後の課題として以下にまとめる.
- BERTの損失関数などを変更や入力データの改良を行い,更なる段落分割の推定精度の向上をはかる.
- MEMでの推定精度を向上させるため,更なる素性の追加を検討する.
- MEM,SVMでの段落情報の素性追加は,BERTを用いた分割推定での条件と公平ではなかったため考察を行わなかったが,BERTでの入力データに段落情報を付与して推定を行い,手法間での段落情報付与の性能比較をしたい.
- 3単語連続に対して素性分析で分割に関する素性を得ることができなかったので,4単語,5単語連続に単語数を増やすことや新しい入力データを提案することで分割に関する素性を調査したい.
- 段落分割の正解率はBERTがMEMを上回るため,BERTが正解かつMEMが不正解だと判断した文章内にある単語が,BERTでの素性分析に役立つのではないかと考えた.そこで「BERTが正解,最大エントロピー法が不正解」と「BERTが不正解,最大エントロピー法が正解」の文章の単語の数を用いて,有意差検定を行い,有意差のある単語を得ることで,素性分析を行いたい.