正解テーブルの作り方

本実験は2回クラスタリングをすることで(1回目は文レベルのクラスタリング, 2回目は単語クラスタリング),重要な情報を文書から抽出する.一つの正解テーブルは1回目のクラスタリングの結果の表の一列(この列は人手で選択する)に基づいて,人手で作成する.人手でこの列について重要な情報の種類を考えて,人が重要と思うデータの種類と関連しているデータを列から抽出して,正解テーブルを作る.具体例を示す.正解テーブルを作る時の根拠, 1回目のクラスタリングの結果の表を表[*]と表[*]に示す.この1回目のクラスタリングの表に基づいて作った正解テーブルを表[*]と表[*]に示す.具体例の実験データは毎日新聞から抽出した交通事故に関するデータである.

Table: 交通事故に関する1回目のクラスタリング結果(列1)
  \scalebox{0.7}{
\begin{tabular}{\vert l\vert p{15cm}\vert} \hline
文書番号 &...
...り線で、高速バスが前のトラックに追突\\ \hline
\end{tabular}}



Table: 交通事故に関する1回目のクラスタリングの結果(列2)
  \scalebox{1.0}{
\begin{tabular}{\vert l\vert p{12cm}\vert} \hline
文書番号 &...
...行犯逮捕した\\ \hline
文書19&\\ \hline
文書20&\\ \hline
\end{tabular}}


この表[*]と表[*]は毎日新聞の地震記事を利用して,1回目のクラスタリング(文レベル)の結果の一部である.表[*]を使って作った表は表[*]に示す.表[*]を使って作った表は表[*]に示す.


Table: 1回目のクラスタリングの列1に基づく正解テーブル
\scalebox{0.8}{
\begin{tabular}{\vert l\vert l\vert l\vert l\vert} \hline
文書...
...9時半ごろ&大津市蛍谷&高速バス,トラック \\ \hline
\end{tabular}}


[*]は表[*]に基づいて作った正解テーブルである.表[*]は文書から事故の発生時間や場所と車のタイプなどの情報が含まれる文を抽出した.正解テーブルを作る時,これらの重要な情報の種類(事故の発生時間や場所と車のタイプ)を考えて,表[*]を作った.

Table: 1回目のクラスタリングの列2に基づく正解テーブル
\scalebox{1.0}{
\begin{tabular}{\vert l\vert l\vert l\vert l\vert} \hline
文書...
...運転処罰法\\ \hline
文書19&&\\ \hline
文書20&&\\ \hline
\end{tabular}}


[*]は表[*]に基づいで作った正解テーブルである.表[*]は文書から容疑者の名前や罪の名前などを含む文を文書から抽出した.正解テーブルを作る時,これらの重要な情報の種類(容疑者の名前や罪の名前)を考えて,表[*]を作った.


Table: 1回目のクラスタリングの列1に基づく出力テーブル
\scalebox{0.9}{
\begin{tabular}{\vert l\vert l\vert l\vert l\vert l\vert} \hline...
...日午前9時半ごろ&大津市蛍谷&トラック&... \\ \hline
\end{tabular}}