next up previous contents
次へ: データ 上へ: 冗長な文の収集とその分析 戻る: 冗長な文の収集とその分析   目次


提案手法

われわれの提案する分析手法は以下のとおりである. 3.1.2節で述べる「冗長性修正文集合データベース」 にある 冗長な文とその修正文をそれぞれ,形態素解析ChaSen3.1にかけ単語単位に分割をする.例えば「まず初めにマシンの点検を行う。」という文を形態素解析にかけると図3.1に示した結果となる.

図: 形態素解析の例
1#1

このように形態素ごとに「冗長な文」とその「修正文」を分割し,分割した各データを比較し冗長箇所の検出をする.例えば「点検を行う」を「点検する」に修正していた場合を考えてみる.

図: 冗長箇所の例
2#2

3.2の下線部分「を行う」が「する」に修正されている.本研究ではこの「する」に修正された「を行う」が冗長であると考え「冗長箇所」としている.

冗長箇所を作成データで検出し,その頻度を求める.頻度としては一単語の頻度を求めるもの(例:一単語である「行う」の頻度を求める)と, 二単語連続の頻度を求めるもの(例:二単語連続である「を 行う」の頻度を求める)の二種類を行う. これによってどのような表現が冗長な文に頻出するかを調べる. また頻出表現について修正により冗長な表現がどのように変化したかを調べる.



tsudou 平成24年3月14日