実験データ

本研究では,実験データとして日英重文複文コーパス[17]を用いる. 実験で用いるデータの内訳を表5.1に, 実験データにおける対訳文の例を表5.2に示す.


表: 実験データの内訳
学習データ(重文複文) 日本語 英語
文数 100,000文
単語数 1,404,366語 1,137,163語
異なり単語数 38,530語 37,035語
平均文長 14.0語 11.4語
テストデータ(重文複文) 日本語  英語
文数 10,000文
単語数 140,671語 113,586語
異なり単語数 13,765語 12,176語
平均文長 14.1語 11.4語
デベロップメントデータ(重文複文) 日本語 英語
文数 1,000文
単語数 14,237語 11,591語
異なり単語数 3,438語 3,047語
平均文長 14.3語 11.6語


表: 対訳文の例
彼女 は にっこり 笑っ て ぼく に あいさつ し た 。
She greeted me with a big smile .
僕 は 君 と 同じ 時計 を 持っ て いる 。
I have the same watch as yours .
この 本 は 値段 が 付け られ ない ほど 貴重 な 物 です 。
This book is so valuable it would be impossible to put a price on it .