3単語連続を用いたBERTの素性分析

3単語連続を用いたBERTでの素性分析の手法について説明する.最大エントロピー法での素性分析では,1単語ごとに正規化α値を求めて分割,非分割に役立つ素性を調べている.BERTでは正規化α値を得ることができないため,最大エントロピー法と同じ手法では素性分析をすることができない.

またサポートベクトルマシン法(SVM)も同様に正規化α値を得ることができないので最大エントロピー法と同じ手法を用いることができない.この問題に対して,SVMで分類する際に得た,分離平面との距離を用いた素性分析がある[14].元のデータで1つの文章に対して用いた複数の素性を,テストデータで1つの文章に対して用いた複数の素性を1つずつに分ける.1つずつに分けることで,分けたそれぞれの素性に対してSVMで分類を行う.データ例を図3.11に示す.


Figure 3.11: 先行研究SVMデータ例
68#68

3.11のテストデータをSVMで分類する際,事例に対する分離平面との距離がそれぞれ算出される.算出された分離平面との距離により,分離平面との距離が大きい素性の事例を有用な素性とする素性分析である.

本研究では,[14]の手法をBERTに用いることで素性分析を行う.BERTを用いて段落分割を行った際のテストデータを1単語ずつに分ける.分けた1単語に対してBERTを用いることで,分けた1単語の分割,非分割に関するそれぞれ値が算出される.算出された値が分割の値が大きい場合,分割に関する素性,非分割の値が大きい場合,非分割に関する素性であると判断する.1単語ずつに分けた例と算出された数値の例を図3.12に示す.


Figure 3.12: 1単語ずつ分けた例
69#69

3.12のように1単語ずつで素性分析を行った.しかしBERTを用いた1単語ずつでの素性分析では,分割,非分割に関する素性を得ることができなかった.

そこで,本研究ではテストデータを3単語連続にすることで,素性分析を行った.以下に3単語連続の例を図3.13に示す.


Figure 3.13: 3単語連続例
70#70

3.13のように,元のテストデータを3単語連続に分ける.テストデータを3単語連続に整形し素性分析を行うことで,分割,非分割に関する値がそれぞれの3単語連続に対して算出される.算出された値が分割の値が大きい場合,分割に関する素性,非分割の値が大きい場合,非分割に関する素性であると判断する.図3.13の「久間章生元」は,分割の値が0.12に対して非分割の値が0.88と非分割の方が大きい.「久間章生元」は非分割に関する素性であると判断できる.

「分割」,「非分割」の数値の上位の素性を最大エントロピー法から得た素性と比較することで,3単語連続での素性分析が有用な手法であるかどうかを調べる.