段落とは,文章において段落とは読み手が文章を読む上で,また書き手も伝えたいことを表現する上で大切なものである.形式段落に関する研究では,飯倉ら[1]のFocal Lossを利用したBERTの小説の形式段落を求めた研究がある.また日本語以外では,Genzel[2]の英語のテキストに機械学習を利用して,段落開始文と非段落開始文を分けた研究がある.しかし,飯倉ら[1]の研究ではBERTの形式段落推定に対しての有用性は求めたが,BERT以外の他手法との比較,素性分析が行われていない.そこで本研究では,日本語の文章に対して,BERTと最大エントロピー法を用いて段落分割の自動推定を行い,どちらが優れているかを比較し,段落分割の結果から分割,非分割に関する素性を得る.
本研究の成果は3つある.1つ目は,新聞記事と小説を用いて段落分割の推定を行い,BERTは最大エントロピー法の正解率に対して全て上回っており,BERTと最大エントロピー法の段落分割の正解率を比較することで,BERTによる段落分割手法の優位性を示した.2つ目は,BERTを用いた段落分割のテストデータを3単語ごとに分け,分けた3単語それぞれに対する分割,非分割の出力値から素性分析を行う新しい手法を提案し,分割に関する素性は1つしか得ることができなかったが,非分割に関する素性は得ることができた.3つ目は,最大エントロピー法とBERTの素性分析を比較することで,素性分析において最大エントロピー法の方が有効な手法であることを示した.
3つの成果から,更に推定精度を上げることで,書き手に対して文章を生成する際の段落作成,修正や読み手に対して文章理解の支援に役立つと考えている.