次へ: 実験結果
上へ: 小説を用いた段落の順序推定
戻る: 提案手法に用いる素性
目次
本実験で用いる小説は,青空文庫[11]上のものを利用する.
青空文庫とは,誰でもアクセスできる自由な電子本をインターネット上に集めようとする
活動で,著作権の消失した作品と,自由に読んでもらっても構わないとされたものを電子テキスト化した上で揃えている.
学習データとテストデータに用いる作品の詳細を表9.2に示す.
表:
各データに用いる作品とその詳細
データ名 |
作品名 |
作成日 |
総段落数 |
総章数 |
学習データ |
我輩は猫である |
1905年1月-1906年8月 |
2,245段落 |
11章 |
テストデータ |
坊ちゃん |
1906年4月 |
471段落 |
11章 |
また,実験で順序推定を行う際に用いる2段落対の組には2種類の場合を考慮して,
学習データとテストデータを作成する.
- 1.
- 章内の最初の2段落のみの対の順序を推定する場合(以下CaseIと表記)
- 2.
- 章内のあらゆる連接する2段落の対の順序を推定する場合(以下CaseIIと表記)
各場合での学習データとテストデータの組数を表9.3に示す.
表:
各場合における学習データとテストデータの組数
各場合 |
学習データ |
テストデータ |
CaseI |
22 |
22 |
CaseII |
4,468 |
920 |
平成27年3月4日