ここでは実験を行うにあたって抽出した差分を1単語,2単語連続,3単語連続で分解を行ってみた. 1単語,2単語連続,3単語連続の結果の例を以下に示す.
[ |
c]例5
抽出した原文が『機械学習を用いて行っている』という文だった場合 ・・・1単語
機械
|
[ |
c]例6
抽出した原文が『機械学習を用いて行っている』という文だった場合 ・・・2単語
機械 学習
|
[ |
c]例7
抽出した原文が『機械学習を用いて行っている』という文だった場合 ・・・3単語
機械 学習 を
|
このように分解して,単語単位での頻度を集計する.
その結果,1単語だと抽出される量は多いが,そこから得られる情報量が少なく特徴が発見しづらいため分析に用いるにはあまり向かないものと思われる. 3単語連続だと抽出される量が少なくデータ不足であり,頻度自体が1となるものが多くなってしまい特徴も発見しづらいためこれも分析に用いるには不向きと判断した.
そこで2単語連続では,抽出される表現の量も多く,頻度もばらけており特徴のある表現を発見しやすいと考えられたため,4.2節の分析では2単語連続を用いて行うこととした.
なおここで取り出す2単語連続は5人中2人以上の論文に出現している表現に限定して行った.