next up previous contents
次へ: 関連研究と本研究の関係 上へ: sotsu2 戻る: 図一覧   目次

はじめに

近年,パソコンやインターネットの普及により,計算機を使って文字を入力する機会が増えている. また,ブログ等の気軽に文書を書ける媒体が出現したことによって,口語的表現や,くだけた表現,誤った表現等をよく目にする. そういった表現は研究やビジネス等に用いられる正式な文書作成時には不適切であるため,それらを検出することが望まれる.

先行研究として,既に入力誤り検出・表記統一を目的とした研究が行われている[1,2,3,4,5,6,7]. 例えば,白木ら[8]は平仮名列を抽出し,辞書データベースと照合することでスペルチェックを行っている.

しかしこれらの手法では誤り(誤字や脱字等)を検出できても,くだけた表現や,一般にその文書では利用されることが少ない(好ましくない)表現を検出することが難しいという問題がある. そこで本研究では,複数分野の文書を用いて 当該分野において不適切となる表現の検出を行う. 本稿では,同種の文体や表現を利用する文書群が 属するものを「分野」と呼ぶことにしている.

本研究では,白木ら[8]と異なり, 平仮名列ではなく,付属語と接続詞と感動詞と連体詞と句読点の連続(以下,これらを対象語列とする) を 抽出し,複数分野の文書での対象語列の出現頻度を利用して誤り表現の検出を行う.

本研究の主張点をあらかじめ整理すると以下のようになる.



平成25年10月13日