Next: mdiff
Up: 分析方法
Previous: 修正文に出現する単語連続の頻度調査
目次
階層クラスタリングによる分類
Rによる階層クラスタリングを用いて5.1.2節で抽出した修正文を分類し, 似ている修正文を調査する. この結果で得られた似ている修正文同士から共通している部分を抽出する. 本研究では, この共通部分が論文の修正パターンになると考える. また, 5.1.3節の方法だけでも修正パターンを得られると考えられるが, 網羅性を向上させるために階層クラスタリングを用いる.
階層クラスタリングのアルゴリズムとしては, 最短距離法や群平均法といった様々なアルゴリズムが提案されている. 本研究ではウォード法を利用し, 修正文に出現する単語1語と2単語連続と3単語連続が出現したか否かをベクトルの要素として類似度を算出し, 似ている修正文を調査する. 単語1語のものが出現している場合, ベクトルの要素の値は1としている. 2単語連続が出現している場合, ベクトルの要素の値は2とし, 3単語連続が出現している場合, ベクトルの要素の値は3としている. 最後にベクトルの全ての要素を足したものを各要素で割って大きさを1にし, 類似度を算出する. ベクトルの例を表5.2に示す.
表 5.2:
ベクトルの例
文番号 |
要素 |
|
問題 |
が |
という |
… |
問題が |
という問題 |
… |
という問題が |
… |
文1 |
1 |
0 |
1 |
… |
0 |
2 |
… |
0 |
… |
文2 |
1 |
1 |
1 |
… |
2 |
2 |
… |
3 |
… |
文3 |
1 |
0 |
1 |
… |
2 |
0 |
… |
3 |
… |
2017-02-24