実験データ

本研究はクラスタリングを2回して,単語レベルの重要な情報を文書から抽出する.1回目のクラスタリングは岡崎らの研究に基づいて,文書を文レベルでクラスタリングする.本実験は直接人手で1回目クラスタリング結果の正解テーブルを作って,これらの正解テーブルを1回目クラスタリングの結果として扱う.人手で作った正解テーブルを用いて,2回目のクラスタリング実験だけを行う,単語レベルの重要な情報を文書から抽出する.地震の文書の例を図[*]に示す,岡崎の正解テーブルを表[*]と表[*]に示す.
Figure: 処理結果の例
\begin{figure}\begin{center}
\begin{itembox}[l]{地震の文章の例}
\small$...
...r
$<$/doc$>$
\end{itembox}
%\label{bunkatu_result}
\end{center} \end{figure}


Table: 地震での正解テーブル
Table: 地震での正解テーブル
\scalebox{0.9}{
\begin{tabular}{\vert l\vert p{13cm}\vert} \hline
文書番号...
...される \\ \hline
文書10  &\\ \hline
... &... \\ \hline
\end{tabular}} \scalebox{0.9}{
\begin{tabular}{\vert l\vert p{10cm}\vert l\vert} \hline
文書...
... \\ \hline
文書10   & &...\\ \hline
... &... &... \\ \hline
\end{tabular}}


文書データの詳細を以下で示す.

Table: 文書データの詳しいの表
\scalebox{1.0}{
\begin{tabular}{\vert l\vert r\vert r\vert r\vert} \hline
記事...
...31.5 \\ \hline
Wikipedia(野球チーム) &20 &68 &46.9 \\ \hline
\end{tabular}}