next up previous contents
次へ: キーワードの有用性 上へ: 情緒推定における提案システムと人手との比較 戻る: 辞書のみによる推定ではカバーできない場合   目次

文抽出に関する問題

本研究においては,書き手が文を区切るために使用する記号としてもっとも単純 な句点と改行タグ<br>により文を分割し,その他のタグを削除すること で文抽出とした.しかしながら,それにより情緒推定に影響を及ぼす事例がある.

例:トップページに戻る

     提案システムによる出力:《恐れ》

この例では,適合したパターン「戻る」に付与されている情緒名《恐れ》が出力 されている.しかしながら,「トップページに戻る」のような表現は,ウェブサ イトでよく見られる特有の表現であり,情緒を持つ文ではない.このようなサイ ト特有の表現はあらかじめ推定の対象外とする必要がある.[5]で は,webコーパス作成における質の向上のため,完全一致文の削除や引用記号へ の対処,雛型表現の削除等を行っている.本研究においても,ページ固有の文を 得るための仕組が必要と考えられる.



平成21年3月23日