next up previous contents
Next: クラスタの項目名の求め方 Up: 文の分割方法 Previous: x-means法   目次

重要度の計算方法

3.1節の手順4におけるクラスタごとの重要度の計算方法を説明する.

クラスタリング結果には表3.1の(a)ように関連する文だけで構成される密集率の高いクラスタもあれば,表3.1の(b)のように関連性のない文で構成される密集率の低いクラスタもある. 密集率の高いクラスタは重要であると考えられる. よって,$k$番目のクラスタの密集率$d_k$を式3.1のように定める. ここで,$N_k$$k$番目のクラスタに含まれる文の総数であり,$S_{k,l}$$k$番目のクラスタに含まれる$l$番目の文のベクトルであり, $S_{k,mean}$$k$番目のクラスタに含まれる文のベクトルの平均である. 密集率の計算の例を図3.4に示す.

\begin{displaymath}
d_k = \frac{1}{N_k} \sum_{l=1}^{N} \frac{S_{k,l} \cdot S_{k,mean}}{\vert S_{k,l}\vert\vert S_{k,mean}\vert}
\end{displaymath} (3.1)


表 3.1: クラスタの密集率の例
\begin{table}
\begin{center}
\includegraphics[width=14cm]{cluster_accurancy.eps}
\end{center}
\end{table}


図 3.4: 密集率の計算の例
\includegraphics[width=14cm]{accurancy.eps}

3.1で求めたクラスタの密集率$d_k$を,式3.2を用いて,最小値が0,最大値が1になるように正規化する. ここで,$nd_k$$k$番目のクラスタの正規化されたクラスタの密集率であり,$K$はクラスタの総数である.

\begin{displaymath}
nd_k = \frac{d_k - d_{min}}{d_{max} - d_{min}}
\end{displaymath} (3.2)


\begin{displaymath}
d_{min} = \min_{1 \leq k \leq K} d_k
\end{displaymath} (3.3)


\begin{displaymath}
d_{max} = \max_{1 \leq k \leq K} d_k
\end{displaymath} (3.4)

多くの文書の情報を含むクラスタほど重要であると考えられる. よって,$k$番目の文書カバー率$c_k$を式3.5のように定める. $p_k$$k$番目のクラスタにおいて文を抽出できた文書の数であり,$P$は文書の総数である.

\begin{displaymath}
c_k = \frac{p_k}{P}
\end{displaymath} (3.5)

3.5で求めた文書カバー率$c_k$を,式3.6を用いて,最小値が0,最大値が1になるように正規化する. ここで,$nc_k$$k$番目のクラスタの正規化された文書カバー率であり,$K$はクラスタの総数である

\begin{displaymath}
nc_k = \frac{c_k - c_{min}}{c_{max} - c_{min}}
\end{displaymath} (3.6)


\begin{displaymath}
c_{min} = \min_{1 \leq k \leq K} c_k
\end{displaymath} (3.7)


\begin{displaymath}
c_{max} = \max_{1 \leq k \leq K} c_k
\end{displaymath} (3.8)

$k$番目のクラスタの重要度$i_k$を式3.9のように定義する.

\begin{displaymath}
i_k = nd_k × nc_k
\end{displaymath} (3.9)


next up previous contents
Next: クラスタの項目名の求め方 Up: 文の分割方法 Previous: x-means法   目次
2018-03-02