next up previous contents
次へ: 評価方法 上へ: 学習データ 戻る: 単文コーパス   目次

重文複文コーパス

実験には,辞書の例文から抽出した,重文複文コーパス122,719文[8]を用 いる.単文コーパスと同様に,重文複文コーパスは対訳コーパスであり,英語コー パスと日本語コーパスに分けらている.重文複文コーパスから,Openテストデー タ各1,000文をランダムに抽出し,学習には121,719文を用いる.単文コーパスと 同様に121,719文から各1,000文,5,000文,10,000文,50,000文,100,000文ずつ をランダムに抽出し実験を行なう.コーパスの例を以下に示す.また,重文複文 と単文では単語数に違いがある.重文複文コーパスの日本語と英語の単語数を表 3と図5に示す.単文コーパスと同様に,ユニークな単語数を表4と図6に示す.

重文複文コーパス,日本語コーパス
最近 はたち の 悪い 犯罪 が 増え て いる 。
パチンコ は わたし の 好き な 遊び の 一つ です 。
弟 と 口げんか を し て 後味 の 悪い 思い を し た 。
それ は ありふれ た 話 だ 。
急い で い て 彼女 に 大事 な こと を 言い 忘れ た 。

重文複文コーパス,英語コーパス
Atrocious crimes are increasing these days .
Pachinko is one of my favorite pastimes .
I had an unpleasant feeling after I argued with my brother .
It is an old story .
I was in such a hurry I forgot to tell her the most important thing .


表 3: 重文複文コーパスの単語数
学習データ(文) 日本語 英語
1,000 13,663 11,050
5,000 69,107 56,132
10,000 138,109 112,136
50,000 691,893 560,389
100,000 1,381,961 1,119,533
121,719 1,711,869 1,378,791

図 5: 重文複文コーパスの単語数
\includegraphics[scale=1, clip]{F_sentence.eps}


表 4: 重文複文コーパスのユニーク単語数
学習データ(文) 日本語 英語
1,000 3,312 2,961
5,000 9,155 8,096
10,000 13,463 11,919
50,000 28,631 26,497
100,000 36,667 35,161
121,719 41,097 40,993

図 6: 重文複文コーパスのユニーク単語数
\includegraphics[scale=1, clip]{F_sentence_U.eps}

表1と表4を比較すると,重文複文の単語数は単文の単語数より3割ほど多いことが わかる.また,表2と表4を比較すると,ユニークな単語数の差は大きくない.


next up previous contents
次へ: 評価方法 上へ: 学習データ 戻る: 単文コーパス   目次
平成20年3月25日