はじめに

文章において段落とは読み手が文章を読む上で,また書き手も伝えたいことを表現する上で大切なものである.段落の有無で文章の可読性が変わり,1つの段落で複数の内容が入っていると理解しにくく,とても読みにくいものである.内容や場面の転換に基づき段落分けがなされることは,読み手に対して十分な理解を促す.

段落には,形式段落と意味段落の2種類がある.一般的に形式段落は,形式上ひとまとまりになっている段落のことを指し,文頭を1字下げたところから改行までのまとまり.意味段落は,一つの文章を内容や意味に応じて分けたまとまりのことを指し,一つ以上の形式段落からなるまとまりのことを意味している.

文章の形式段落を推定するにあたって,文と文の間の箇所が段落であるか,非段落であるかといった2クラス分類問題とすることで,段落の推定を行うことができる.

形式段落に関する研究では,飯倉ら[1]のFocal Lossを利用したBERTの小説の形式段落を求めた研究がある.また日本語以外では,Genzel[2]の英語のテキストに機械学習を利用して,段落開始文と非段落開始文を分けた研究,Carolineら[3]の英語,ドイツ語,ギリシャ語の段落の境界を自動的に予測する研究がある.しかし,日本語での形式段落の研究は飯倉ら[1]のBERTの研究のみで,BERTでの段落分割に対する有用性について述べているが,他手法との比較を行っていない.

その問題を解決するため,本研究ではBERTと最大エントロピー法を用いて形式段落を推定し,手法間での性能差の比較を行う.BERTとは自然言語処理のタスクにおいて高い精度が示されており,損失関数として2クラス分類問題を解く上で基本的なSoftmax Cross Entropy Lossを使用することで段落分割を行う.また最大エントロピー法とは,入力したそれぞれの素性の判定における寄与率を数値化できる機械学習法である.分割,非分割に対する確率値を算出することで、段落分割の推定を行う.形式段落の推定を行うことで,文章を生成する際の段落の作成や修正の支援に役立つと考えている.

また,先行研究では段落の推定しか行っておらず,なぜ段落分割されたか分割されなかったかといった考察がない.そこで本研究では,最大エントロピー法では正規化α値を,BERTではSoftmax関数の出力値を用いることで,段落の分割,非分割に影響を与えた単語を取得し,素性分析を行う.BERTの結果を用いた素性分析の研究はなく,本研究では手法を新たに提案している.

本研究の主な主張点を以下に整理する.

本論文の構成は以下の通りである. 第2章では,本研究に関連する研究としてどのような研究が行われてきたかを記述し,その研究と本研究との関連を説明する. 第3章では,本研究が扱う問題の設定とそれを解決するために提案した手法について説明を行う. 第4章では,本研究が行った実験についての説明と,その結果と考察について記述する. 第5章では,素性分析について結果と考察について記述する. 第6章では,今後の課題について記述する. 第7章では,まとめを行う.