next up previous contents
次へ: 手順 上へ: 差分の頻度による分析 戻る: 考察   目次

差分に含まれる単語単位での頻度分析

抽出した差分をそのままの形で頻度を数えると,頻度2以上のものは17箇所しか見つからなかった. よって,3章で抽出した差分の表現から単語単位で表現を取り出し頻度の集計を行い,修正前に用いられていた不適切な表現と修正後に書き換えられた表現の出現傾向を調べる.

ここでは実験を行うにあたって抽出した差分を1単語,2単語連続,3単語連続で分解を行ってみた. 1単語,2単語連続,3単語連続の結果の例を以下に示す.

[
c]例5 抽出した原文が『機械学習を用いて行っている』という文だった場合 ・・・1単語

機械
学習

用い

行っ

いる

[
c]例6 抽出した原文が『機械学習を用いて行っている』という文だった場合 ・・・2単語

機械 学習
学習 を
を 用い
用い て
て 行っ
行っ て
て いる

[
c]例7 抽出した原文が『機械学習を用いて行っている』という文だった場合 ・・・3単語

機械 学習 を
学習 を 用い
を 用い て
用い て 行っ
て 行っ て
行っ て いる

このように分解して,単語単位での頻度を集計する.

その結果,1単語だと抽出される量は多いが,そこから得られる情報量が少なく特徴が発見しづらいため分析に用いるにはあまり向かないものと思われる. 3単語連続だと抽出される量が少なくデータ不足であり,頻度自体が1となるものが多くなってしまい特徴も発見しづらいためこれも分析に用いるには不向きと判断した.

そこで2単語連続では,抽出される表現の量も多く,頻度もばらけており特徴のある表現を発見しやすいと考えられたため,4.2節の分析では2単語連続を用いて行うこととした.

なおここで取り出す2単語連続は5人中2人以上の論文に出現している表現に限定して行った.



Subsections

平成25年2月19日