次へ: 研究の流れ 上へ: G1 戻る: 図一覧目次

はじめに

文の生成や推敲[1]において，注意すべきことの一つに文の冗長性の問題がある．冗長な文は読みづらく，読みやすくなるように修正する方が良いと考える．

例文として「まず初めにマシンの点検を行う。」という文を考えてみよう．文中の「まず」と「初め」という単語は同じ意味を含んでおり冗長である．また「点検を行う」については意味の薄い「行う」を省くことができる．このように文内に同じ意味の単語が複数回出現する文や，余分な漢字表現を含む言い回しは，冗長でわかりにくい．上述した例文は冗長箇所を削除・修正することで「まずマシンを点検する。」という簡潔な文に修正できる．本研究では，上記のような文を冗長な文とし，冗長な文の収集と分析を行うとともに，冗長な文の自動検出を試みる．

文の改善の研究としては「誤字の修正・適切な語の選択」と「語順の修正・語と語の係り受けの誤りおよび複雑性の修正」と「冗長な表現の改善」が考えられる．このうち「誤字の修正・適切な語の選択」と「語順の修正・語と語の係り受けの誤りおよび複雑性の修正」の研究に関しては既に先行研究が多数ある．「誤字の修正・適切な語の選択」では文献[1,2,3]が，「語順の修正・語と語の係り受けの誤りおよび複雑性の修正」では文献[1,4,5]がある．しかし「冗長な表現の改善」を扱う研究についてはほとんどないため本研究で扱うこととした．

本研究の主な主張点は以下の3つである．

本研究では，ウェブ上のデータから冗長な文と冗長でない文を収集し，収集したデータに基づく冗長な文に関する分析を行った．収集したデータおよび分析結果は，冗長な文に関わる研究や処理のための貴重な資料となる．
本研究は機械学習を用いて冗長な文の検出を行う初めての試みである．
機械学習を利用した冗長な文の検出は，すべての文を一つの機械学習で扱う方法ではそれほど良い性能を出すことはできなかった．しかし，特定の表現を含む文の集合ごとに機械学習を行う方法(特定の表現の種類の数だけ機械学習が必要)では， 0.7から0.8という比較的高いF値で冗長な文を検出できた．

本論文の構成は以下の通りである．第2章では，卒業研究である冗長な文の機械的分析と検出の全体の流れについて述べる．第3章では冗長な文の機械的分析の提案手法や使用データの説明を行い，分析の結果を示す．第4章では，冗長な文の機械的検出の提案手法とそれを用いた検出実験の結果を示す．第5章では本研究の関連研究を述べる．

tsudou 平成24年3月14日