頻出頻度の多い単語について

本研究では,名詞部分を全てテンプレートの変数と設定しているため,一見分かりづらいテンプレートとなっている.しかし,一部の変数は変数化せずにそのままにする方がテンプレートとして見やすくなる場合がある.例を表6.3.1にて示す.表において2列目「出身」のクラスタ内の単語頻度をカウントしたところ「出身」という単語が107個中78個も存在している.このようにある程度頻出頻度が高い単語は変数化せずそのままにすることで「X2X1」というテンプレートが「X2出身」となり,視覚的に分かりやすいテンプレートになると考える.


Table 6.3.1: データ1での「出身」の列のクラスタリング結果
81#81