next up previous contents
次へ: 2単語連続の抽出例 上へ: 差分に含まれる単語単位での頻度分析 戻る: 差分に含まれる単語単位での頻度分析   目次

手順

4.1は2単語連続の頻度を集計するまでの一連の流れである.
図: 頻度集計までの流れ
3#3

2単語連続の頻度分析の具体的な手順を以下に示す.

  1. 差分抽出によって得られた差分表現を利用する.
  2. 1の差分表現の修正前表現と修正後表現に対して形態素解析(ChaSen[8])を行い,それらを品詞単位の単語に分解する.
  3. 2で分解された単語を2単語連続にして取り出す.
  4. さらにそこから5人中2人以上の論文に出現している2単語連続のみを抽出する.
  5. 修正前表現で得られた2単語連続の頻度をaとし,修正後表現で得られた2単語連続の頻度をbとする.a/(a+b)という式を利用して0〜1までの数値で得る.
  6. 上記の式で得られた値が1に近いものが,より修正後表現で利用される可能性が高いと考えられる. 逆に0に近いものは修正前表現で利用される可能性が高いと考えられる。



平成25年2月19日