次へ: 関連研究と本研究の関係 上へ: sotsu2 戻る: 図一覧目次

はじめに

近年，パソコンやインターネットの普及により，計算機を使って文字を入力する機会が増えている．また，ブログ等の気軽に文書を書ける媒体が出現したことによって，口語的表現や，くだけた表現，誤った表現等をよく目にする．そういった表現は研究やビジネス等に用いられる正式な文書作成時には不適切であるため，それらを検出することが望まれる．

先行研究として，既に入力誤り検出・表記統一を目的とした研究が行われている[1,2,3,4,5,6,7]．例えば，白木ら[8]は平仮名列を抽出し，辞書データベースと照合することでスペルチェックを行っている．

しかしこれらの手法では誤り(誤字や脱字等)を検出できても，くだけた表現や，一般にその文書では利用されることが少ない(好ましくない)表現を検出することが難しいという問題がある．そこで本研究では，複数分野の文書を用いて当該分野において不適切となる表現の検出を行う．本稿では，同種の文体や表現を利用する文書群が属するものを「分野」と呼ぶことにしている．

本研究では，白木ら[8]と異なり，平仮名列ではなく，付属語と接続詞と感動詞と連体詞と句読点の連続(以下，これらを対象語列とする) を抽出し，複数分野の文書での対象語列の出現頻度を利用して誤り表現の検出を行う．

本研究の主張点をあらかじめ整理すると以下のようになる．

日本語誤り検出に対して，複数分野の文書での出現頻度を利用するという特徴的な手法を提案している．
提案手法は，具体的には，修正する文書と同じ分野の文書での頻度が小さく，修正する文書と異なる分野の文書での頻度が大きい表現を誤りとするものである．簡単に言えば，例えば新聞において新聞で頻度が少なくブログで頻度の高い表現があった場合にブログにあるようなくだけた表現の可能性が高いとして誤りとするものである．
実験において，複数分野の文書での出現頻度を利用する方(提案手法)が利用しないよりも，統計的検定により有意に少ない誤検出で(高い適合率で)誤り検出をできることを確認した．
本研究では，修正対象の文書を新聞の経済面のみとした場合の疑似データに基づく実験も行った．この実験では新聞データにブログの文を混ぜておき，新聞データからブログデータを検出できればブログのようなくだけた文を検出できたという意味で検出に成功したと考える．実験結果は，複数の文書の頻度を用いないベースラインの方法 (ブログでの頻度を用いない方法)において，ブログ文の検出は0.299の適合率であった．一方，複数の文書の頻度を用いる提案手法 (ブログでの頻度を用いる方法)において，ブログでの頻度が1以上，2以上，10以上とした場合にそれぞれ 0.344，0.377，0.468という，ベースラインよりも高い適合率が得られた．よって提案手法は，ブログでの頻度が高い場合ほど高い適合率を得ることを確認した．
ブログでの頻度が高い場合ほど高い適合率を得ることができるので，提案手法は効果的な利用方法が考えられる．例えば，ブログでの頻度が高い表現から修正候補として提示することで，誤りの可能性が高い表現から人手でチェックしていくことが可能である．

平成25年10月13日