次へ: 2単語連続の抽出例
上へ: 差分に含まれる単語単位での頻度分析
戻る: 差分に含まれる単語単位での頻度分析
目次
図4.1は2単語連続の頻度を集計するまでの一連の流れである.
2単語連続の頻度分析の具体的な手順を以下に示す.
- 差分抽出によって得られた差分表現を利用する.
- 1の差分表現の修正前表現と修正後表現に対して形態素解析(ChaSen[8])を行い,それらを品詞単位の単語に分解する.
- 2で分解された単語を2単語連続にして取り出す.
- さらにそこから5人中2人以上の論文に出現している2単語連続のみを抽出する.
- 修正前表現で得られた2単語連続の頻度をaとし,修正後表現で得られた2単語連続の頻度をbとする.a/(a+b)という式を利用して0〜1までの数値で得る.
- 上記の式で得られた値が1に近いものが,より修正後表現で利用される可能性が高いと考えられる.
逆に0に近いものは修正前表現で利用される可能性が高いと考えられる。
平成25年2月19日