<br>
により文を分割し,その他のタグを削除すること
で文抽出とした.しかしながら,それにより情緒推定に影響を及ぼす事例がある.
例:トップページに戻る
提案システムによる出力:《恐れ》
この例では,適合したパターン「戻る」に付与されている情緒名《恐れ》が出力 されている.しかしながら,「トップページに戻る」のような表現は,ウェブサ イトでよく見られる特有の表現であり,情緒を持つ文ではない.このようなサイ ト特有の表現はあらかじめ推定の対象外とする必要がある.[5]で は,webコーパス作成における質の向上のため,完全一致文の削除や引用記号へ の対処,雛型表現の削除等を行っている.本研究においても,ページ固有の文を 得るための仕組が必要と考えられる.