より「冗長度」を利用した際の正解率が最も高く正解率0.616であった.
素性選択を行った結果として
表
より,冗長度(素性番号3)と共に句読点(素性番号6,7)や文長(素性番号8)の素性を追加すると正解率が向上した.
句読点や文長については直接,文章の長さに関係するためだと思われる.句読点が少なく文長が長ければ,文章内の各文が長く冗長になりやすい.
表
よりテストデータにおいて機械学習を用いた手法と冗長度を用いる手法の比較をした結果,
機械学習を用いた手法の正解率(0.66)が,冗長度を用いる手法の正解率(0.65)と同程度の正解率であった.
冗長度の素性を用いずテストデータで検出を行った結果,正解率0.584と冗長度を用いた際より低くなった.
以上の結果により冗長度が冗長な文章の検出に役立つことがわかった.