next up previous contents
次へ: 使用データ 上へ: 冗長な文章の自動検出 戻る: 機械学習に基づく手法   目次

冗長度に基づく手法

入力の文章において, 機械学習に基づく手法の 素性番号3(冗長度) の素性の式[*]から冗長度をもとめ, 閾値を設け冗長度が閾値以上の場合のみ冗長な文章と判定する.

閾値は学習データにおける10分割クロスバリデーションの正解率 が高いものを用いる. 閾値は0.4刻みで変更し,最大の正解率付近では0.1刻みで変更して 正解率が最大になる閾値を探索する.



平成26年3月16日