このように形態素ごとに「冗長な文」とその「修正文」を分割し,分割した各データを比較し冗長箇所の検出をする.例えば「点検を行う」を「点検する」に修正していた場合を考えてみる.
図3.2の下線部分「を行う」が「する」に修正されている.本研究ではこの「する」に修正された「を行う」が冗長であると考え「冗長箇所」としている.
冗長箇所を作成データで検出し,その頻度を求める.頻度としては一単語の頻度を求めるもの(例:一単語である「行う」の頻度を求める)と, 二単語連続の頻度を求めるもの(例:二単語連続である「を 行う」の頻度を求める)の二種類を行う. これによってどのような表現が冗長な文に頻出するかを調べる. また頻出表現について修正により冗長な表現がどのように変化したかを調べる.