next up previous contents
次へ: 目次 上へ: G1 戻る: G1   目次

概要

文の生成や推敲[1]において,注意すべきことの 一つに文の冗長性の問題がある. 冗長な文は読みづらく,読みやすくなるように 修正する方が良いと考える.

本研究では,冗長な文の改善をするために,冗長な文の収集と分析を行い, それとともに冗長な文の自動検出を試みる.

文の改善の研究としては「誤字の修正・適切な語の選択」と「語順の修正・語と語の係り受けの誤りおよび複雑性の修正」と「冗長な表現の改善」が考えられる.このうち「誤字の修正・適切な語の選択」と「語順の修正・語と語の係り受けの誤りおよび複雑性の修正」の研究に関しては既に先行研究が多数ある.「誤字の修正・適切な語の選択」では文献[1,2,3]が,「語順の修正・語と語の係り受けの誤りおよび複雑性の修正」では文献[1,4,5]がある.しかし「冗長な表現の改善」を扱う研究についてはほとんどないため本研究で扱うこととした. 本研究では,ウェブ上のデータから冗長な文と冗長でない文を収集し,収集したデータに基づく 冗長な文に関する分析を行った. 収集したデータおよび分析結果は, すべての文を一つの機械学習で扱う 方法ではそれほど良い性能を出すことはできなかったが ,特定の表現を含む文の集合ごとに機械学習を行う方法(特定の表現の種類の数だけ機械学習が必要)では, 0.7から0.8という比較的高いF値で冗長な文を検出できた.



tsudou 平成24年3月14日