本研究では学習データとテストデータを合わせてから,ランダムにそれぞれ50個ずつ学習データとテストデータを作りなおし,実験を行う.また,ランダムに作りなおした後,学習データとテストデータの中身を全て交換し,実験を行う.こうすることで,6個の単語で12回実験を行うことができる.表中の「ランダム」とは,学習データとテストデータを合わせてから,ランダムにそれぞれ50個ずつ学習データとテストデータを作りなおしたもの.表中の「ランダム交換」はランダムに作りなおした後,学習データとテストデータの中身を全て交換したものである.
表5.1から表5.6に名詞の多義語6単語の「SemEval2のテストデータ数」「SemEval2の学習データ数」を示す.
語義 | はじめ | 市場 | 電話 | 意味 | 前 | 子供 | |
語義1 | 最初:15 | 売り場:5 | 通話:23 | 内容:25 | 方向:19 | 児童:26 | |
語義2 | 主:35 | 販路:10 | 電話機:27 | 動機:8 | 先:31 | 息子:24 | |
語義3 | - | 取引:35 | - | 価値:17 | - | - | |
未知語義 | - | - | - | 1 | - | - | |
合計 | 50 | 50 | 50 | 50 | 50 | 50 |
語義 | はじめ | 市場 | 電話 | 意味 | 前 | 子供 | |
語義1 | 最初:20 | 売り場:3 | 通話:22 | 内容:27 | 方向:12 | 児童:18 | |
語義2 | 主:30 | 販路:12 | 電話機:28 | 動機:8 | 先:31 | 息子:32 | |
語義3 | - | 取引:35 | - | 価値:12 | - | - | |
未知語義 | - | - | - | 1 | 7 | - | |
合計 | 50 | 50 | 50 | 50 | 50 | 50 |
語義 | はじめ | 市場 | 電話 | 意味 | 前 | 子供 | |
語義1 | 最初:18 | 売り場:4 | 通話:25 | 内容:28 | 方向:17 | 児童:22 | |
語義2 | 主:32 | 販路:11 | 電話機:25 | 動機:9 | 先:29 | 息子:28 | |
語義3 | - | 取引:35 | - | 価値:12 | - | - | |
未知語義 | - | - | - | 1 | 4 | - | |
合計 | 50 | 50 | 50 | 50 | 50 | 50 |
語義 | はじめ | 市場 | 電話 | 意味 | 前 | 子供 | |
語義1 | 最初:17 | 売り場:4 | 通話:20 | 内容:24 | 方向:14 | 児童:22 | |
語義2 | 主:33 | 販路:11 | 電話機:30 | 動機:9 | 先:33 | 息子:28 | |
語義3 | - | 取引:35 | - | 価値:17 | - | - | |
未知語義 | - | - | - | - | 3 | - | |
合計 | 50 | 50 | 50 | 50 | 50 | 50 |
語義 | はじめ | 市場 | 電話 | 意味 | 前 | 子供 | |
語義1 | 最初:17 | 売り場:4 | 通話:20 | 内容:24 | 方向:15 | 児童:22 | |
語義2 | 主:33 | 販路:11 | 電話機:30 | 動機:9 | 先:28 | 息子:28 | |
語義3 | - | 取引:35 | - | 価値:17 | - | - | |
未知語義 | - | - | - | - | 7 | - | |
合計 | 50 | 50 | 50 | 50 | 50 | 50 |
語義 | はじめ | 市場 | 電話 | 意味 | 前 | 子供 | |
語義1 | 最初:18 | 売り場:4 | 通話:25 | 内容:28 | 方向:20 | 児童:22 | |
語義2 | 主:32 | 販路:11 | 電話機:25 | 動機:9 | 先:30 | 息子:28 | |
語義3 | - | 取引:35 | - | 価値:12 | - | - | |
未知語義 | - | - | - | - | - | - | |
合計 | 50 | 50 | 50 | 50 | 50 | 50 |
表5.7に言い換えによって増えたデータ数を示す.
増えた学習データ数 | ||||||
語義 | はじめ | 市場 | 電話 | 意味 | 前 | 子供 |
語義1 | 最初:370 | 売り場:78 | 通話:423 | 内容:6440 | 方向:10431 | 児童:6138 |
語義2 | 主:865 | 販路:156 | 電話機:497 | 動機:2061 | 先:17019 | 息子:5666 |
語義3 | - | 取引:546 | - | 価値:4379 | - | - |
未知語義 | - | - | - | - | - | - |
合計 | 1235 | 780 | 920 | 12880 | 27450 | 11804 |
3.3節の研究を行うためSemEval2の表5.7の言い換えによって増えたデータ数を調節した.そのデータ数を表5.8に示す.
増えた学習データ数 | ||||||
語義 | はじめ | 市場 | 電話 | 意味 | 前 | 子供 |
語義1 | 最初:300 | 売り場:50 | 通話:230 | 内容:5750 | 方向:10260 | 児童:5200 |
語義2 | 主:700 | 販路:100 | 電話機:270 | 動機:1840 | 先:16740 | 息子:4800 |
語義3 | - | 取引:350 | - | 価値:3910 | - | - |
未知語義 | - | - | - | - | - | - |
合計 | 1000 | 500 | 500 | 11500 | 27000 | 10000 |