next up previous contents
次へ: 重文複文コーパス 上へ: 学習データ 戻る: 学習データ   目次

単文コーパス

実験には,辞書の例文から抽出した,単文コーパス182,899文[7]を用いる. 単文コーパスは対訳コーパスであり,英語コーパスと日本語コーパスに分けらて いる. 単文コーパスから,Openテストデータ各1,000文ずつをランダムに抽出し,学習 には181,988文を用いる.学習データ量と精度の関係を調べるために181,899文か ら各1,000文,5,000文,10,000文,50,000文,100,000文ずつをランダムに抽 出し実験を行なう.コーパスの例を以下に示す.また,日本語と英語の単語数を 表1と図3に示す.コーパス中には同じ単語が多く出現するため,固有の(ユニークな)単語 数を表2と図4に示す.

単文コーパス:日本語コーパス
ぶどう酒 は 葡萄 より 作ら れる 。
花子 は 、 悲し そう に 俯い て い た 。
娘 は 今年 中学校 に 上がっ た 。
生徒 は 半径 5 cm の 円 を 描い た 。

単文コーパス:英語コーパス
Wine is made from grapes .
Hanako appeared sad and downcast .
My daughter advanced to middle school this year .
A student drew a circle with a radius of 5 cm .


表 1: 単文コーパスの単語数
学習データ(文) 日本語 英語
1,000 9,432 8,503
5,000 48,200 43,053
10,000 91,460 80,307
50,000 497,893 44,4004
100,000 1,006,954 851,725
181,988 1,916,262 1,648,795

図 3: 単文コーパスの単語数
\includegraphics[scale=1, clip]{S_sentence.eps}


表 2: 単文コーパスのユニーク単語数
学習データ(文) 日本語 英語
1,000 2,096 2,301
5,000 7,458 6,862
10,000 10,033 9,193
50,000 25,712 22,946
100,000 35,103 34,477
181,899 44,597 49,901

図 4: 単文コーパスのユニーク単語数
\includegraphics[scale=1, clip]{S_sentence_U.eps}


next up previous contents
次へ: 重文複文コーパス 上へ: 学習データ 戻る: 学習データ   目次
平成20年3月25日