機械学習に基づく手法と,冗長度に基づく手法で テストデータで冗長な文章の検出実験を行った. 機械学習に基づく手法では,素性選択で得られた 素性[3,6,8]を利用した.冗長度に基づく手法では, 閾値調整で得られた閾値1.4を利用した. 比較として冗長度を利用しない機械学習として,素性[6,8]を使う手法を用いる. 実験結果を表に示す.
手法 | 正解率 |
機械学習:素性[6,8] | 0.584 (292/500) |
機械学習:素性[3,6,8] | 0.660(330/500) |
冗長度 | 0.648(324/500) |
SVMで検出できた例 |
例1.デザインがベーシックだからこそ、風合いのちょっとしたニュアンスにいたるまで妥協は許されませんが、n社は、長野県をはじめ、国内の優れた技術をもつ工場での生産にこだわりながら、自分たちにとって理想の服作りを目指しています。
例2.参加者さんの中には、全く占星術が初めてという方、そして既に当店で占星術講座を受講されている方、有名な占星術師の方を通じて何となくはご存知で、更に詳しく聞いてみたいという方もいらっしゃいました。 |
冗長度で検出できた例 |
例1.自然が持つ自己修復性を超えて負担をかけたり、自己修復性が損なわれたりすると、回復が遅れる。そして結果的に人類をはじめとした生物に悪影響を及ぼすことになる。
例2.「お金」が発達するにつれ、われわれのリスクはすべからく値段に換算されることになった。いまや出産も葬式も、結婚も病気も、洗濯も食事も、教育も音楽も、おいしい水も山の空気さえ、マネーゲームに関与しないものはない。リスクはすっかり貨幣に乗っ取られてしまったのだ。 |
冗長度を利用しただけでも,ある程度の性能が得られた. 冗長度は単純な式であるが, それが複数の文にまたがった冗長な文章の検出に役立つことがわかった.