本研究はクラスタリングを2回して,単語レベルの重要な情報を文書から抽出する.1回目のクラスタリングは岡崎らの研究に基づいて,文書を文レベルでクラスタリングする.本実験は直接人手で1回目クラスタリング結果の正解テーブルを作って,これらの正解テーブルを1回目クラスタリングの結果として扱う.人手で作った正解テーブルを用いて,2回目のクラスタリング実験だけを行う,単語レベルの重要な情報を文書から抽出する.地震の文書の例を図に示す,岡崎の正解テーブルを表と表に示す.
Figure:
処理結果の例
|
Table:
地震での正解テーブル
Table:
地震での正解テーブル
|
文書データの詳細を以下で示す.
- 1.入力データ:強盗事件に関する新聞記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
新聞記事の詳しい:2016年度の毎日新聞から見出しに「強盗:」を含む記事をランダムに20件抽出したデータ.
- 2.入力データ:地震に関する新聞記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
新聞記事の詳しい:2016年度の毎日新聞から見出しに「地震」と「震度」を含む記事をランダムに20件抽出したデータ
- 3.入力データ:交通事故に関する新聞記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
新聞記事の詳しい:2016年度の毎日新聞から見出しに「交通事故:」を含む記事をランダムに20件抽出したデータ
- 4.入力データ:リコールに関する新聞記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
新聞記事の詳しい:2016年度の毎日新聞から見出しに「リコール:」を含む記事をランダムに20件抽 出したデータ
- 5.入力データ:スマートフォンに関する新製品記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
新製品記事の詳しい:2018年1月15日時点での「価格.com」のスマートフォンカテゴリーにおける最新の新製品ニュース記事20件を抽出したデータ
- 6.入力データ:スマートフォンに関する新製品記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
新製品記事の詳しい:2018年1月15日時点での「価格.com」の薄型テレビ液晶テレビカテゴリーにおける最新の新製品ニュース記事20件を抽出したデータ
- 7.入力データ:デジタルカメラに関する新製品記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
新製品記事の詳しい:2018年1月15日時点での「価格.com」のデジタルカメラカテゴリーにおける最新の新製品ニュース記事20件を抽出したデータ
- 8.入力データ:ロボット掃除機に関する新製品記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
新製品記事の詳しい:2018年1月15日時点での「価格.com」の掃除機カテゴリーにおけるロボット掃除 機に関する最新の新製品ニュース記事20件を抽出したデータ
- 9.入力データ:エアコンに関する新製品記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
新製品記事の詳しい:2018年1月15日時点での「価格.com」のエアコン・クラーカテゴリーにおける最 新の新製品ニュース記事20件を抽出したデータ
- 10.入力データ:城に関するWikipediaの記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
Wikipediaの記事の詳しい:2017年6月1日時点でのWikiediaのカテゴリー「日本の 100 名城」に含まれる全ページのうち,ランダムに抽出した20記事の要約部を抽出したデータ
- 11.入力データ:恐竜に関するWikipediaの記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
Wikipediaの記事の詳しい:2017年6月1日時点でのWikiediaのカテゴリー「ジュラ紀の恐竜」に含まれる全ページのうち,ランダムに抽出した20記事の要約部を抽出したデータ
- 12.入力データ:力士に関するWikipediaの記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
Wikipediaの記事の詳しい:2017年6月1日時点でのWikiediaのカテゴリー「高校相撲部出身の大相撲力士」に含まれる全ページのうち,ランダムに抽出した20記事の要約部を抽出したデータ
- 13.入力データ:山に関するWikipediaの記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
Wikipediaの記事の詳しい:2017年6月1日時点でのWikiediaのカテゴリー「日本百名山」に含まれる全ページのうち,ランダムに抽出した20記事の要約部を抽出したデータ
- 14.入力データ:野球チームに関するWikipediaの記事20件に基づき,人手で作った文レベルの正解テーブル(1回目クラスタリングの結果として)
Wikipediaの記事の詳しい:2017年6月1日時点でのWikiediaのカテゴリー「アメリカ合衆国の野球チーム」に含まれる全ページのうち,ランダムに抽出した20記事の要約部を抽出したデータ