next up previous contents
次へ: データ分析 上へ: G1 戻る: はじめに   目次

研究の流れ

本研究では,初めに,冗長な文に関わるデータベースを作成する. ウィキペディア2.1,解析済みブログコーパス(KNBコーパス)2.2から冗長な文と冗長でない文を収集する.冗長であると判断された文については人手で冗長でない文に修正する.これらの文から 冗長な文と冗長でない文を含むデータベースを作成する.

作成したデータベースに含まれる,冗長な文とそれを修正した文を 比較し冗長箇所の頻度分析をする. これにより,冗長な文に頻出する表現などの 冗長な文に関わる特徴を見つける.

次に,作成したデータベースを利用して, 機械学習を利用した冗長な文の検出の研究を行う. データベースの冗長な文と冗長でない文をそれぞれ 学習データの正例,負例として用いる. 機械学習により,冗長な文をどの程度検出できるかを調べる.

最後に,冗長な文に頻出する個々の表現に 着目した,機械学習を利用した冗長な文の検出を行う. 個々の特定の表現を含む文の集合ごとに 機械学習を行う方法(特定の表現の数だけ機械学習する)で入力の文が冗長な文であるか否かの判定を行う.



tsudou 平成24年3月14日