next up previous contents
次へ: フレーズテーブルの学習 上へ: 実験環境 戻る: 実験環境   目次


実験データ

実験には,辞書の例文から抽出した,単文コーパス181,988文[6]と重文複 文コーパス121,719文[7]を用いる.単文コーパスから,Openテストデータ 9,000文とdevelopmentデータ1,000文をランダムに抽出し,残りの 171,988文を学習データに用いる.また,重文複文コーパスからも同様に,Open テストデータ9,000文とdevelopmentデータ1,000文をランダムに抽出し, 残りの111,719文を学習データに用いる.単文コーパスと重文複文コーパス中の 対訳文の例を表[*]に示す.


表: 単文コーパスと重文複文コーパスの例
単文コーパス
日本語文 彼は有能な商人です。
英語文 He is an able merchant.
日本語文 ぶどう酒は葡萄より作られる。
英語文 Wine is made from grapes.
日本語文 花子は、悲しそうに俯いていた。
英語文 Hanako appeared sad and downcast.
日本語文 生徒は半径5cmの円を描いた。
英語文 A student drew a circle with a radius of 5 cm.
重文複文コーパス
日本語文 彼は偏見がありそのため信頼できなかった。
英語文 He was biased, and so unreliable.
日本語文 パチンコはわたしの好きな遊びの一つです。
英語文 Pachinko is one of my favorite pastimes.
日本語文 その鳥は山を越えて飛んでいった。
英語文 The bird winged its flight over the hills.
日本語文 急いでいて彼女に大事なことを言い忘れた。
英語文 I was in such a hurry I forgot to tell her the most important thing.

一般に,日英統計翻訳では,前処理として各コーパスの日本語文を形態素解析を 用いて単語に区切る.本研究では,形態素解析器として``MeCab[8]'' を用いる.また,文節区切りフレーズテーブルの学習のために,構文解析器 ``CaboCha[9]''を用いて,文節区切りの学習データも生成する.ま た,英語文に対しては句読点の前後にスペースを入れる.一般に,英語文に対し ては,大文字の小文字化を行うが,本研究では行わない.


next up previous contents
次へ: フレーズテーブルの学習 上へ: 実験環境 戻る: 実験環境   目次
平成22年2月17日