next up previous contents
次へ: 分類の項目 上へ: 実験 戻る: データ   目次


手順

3.2は差分抽出から分類までの一連の流れである.

図: 差分抽出から分類までの流れ
2#2

3.2の流れに沿った分類までの具体的な手順を以下に示す.

  1. 修正前の学生論文と修正後の学生論文に対してmdiffコマンドを用いて差分を抽出する.
  2. 1で得られた差分箇所を含む一文を原文から抽出する.(例1,例2に抽出した例を掲載)
  3. 差分箇所の前後の共通部分(例1の共通部分(前)(後))の文字数を求める.
  4. 前後の共通部分の文字数の小さい方の値を調べ,この値の降順にソートする.(共通部分が短いものは断片的に一致しただけであり適切な差分でない場合が多い.そのため前後の共通部分がある程度の長さをもっているものが有用な差分と考える.)
  5. ソートの上位のものから順に人手で分類を行う.

[
c]例1 修正前文:どちら空白に入れるべきかを推定する
修正後文:どちら空白に入れるべきかを推定する
差分部分(→を)
共通部分(前):どちら
共通部分(後):空白に入れるべきかを推定する
共通部分(前)の文字数:3文字
共通部分(後)の文字数:14文字
長さ:3

[
c]例2 修正前文:結果をさらによくする方法として次の方法が考えられる
修正後文:結果を改善する方法として次の方法が考えられる
差分部分さらによく(→改善)
共通部分(前):結果を
共通部分(後):する方法として次の方法が考えられる
共通部分(前)の文字数:3文字
共通部分(後)の文字数:17文字
長さ:3



平成25年2月19日