素性

ME,SVMでは文章対において左側の文章にある単語は「L:単語」,右側にある単語は「R:単語」と「コメントの文字数」を素性として利用する.BERTに入力する際は素性の入力は不要なので文章対のみを入力している.「コメントの文字数」の素性は「L:~以下」,「L:~より大きい」,「R:~以下」,「R:~より大きい」としており,~には「10」,「20」,「50」,「100」,「200」,「500」,「1,000」のいずれかの数字がコメントの文字数に応じて入る.また,「コメントの文字数」を素性とせずに単語だけを素性とする実験も行っている.

MEは正規化α値,SVMは分離平面を用いて素性分析を行う.MEでは,正規化α値の高いものが重要な素性となる.SVMでは「L:単語」などの1単語を入力し,分離平面からの距離が大きいものが重要な素性となる.文章対を用いたBERTの素性分析は困難なため現時点では行えていない.