next up previous contents
次へ: 翻訳モデルの学習 上へ: 実験方法 戻る: 実験方法   目次

実験データ

本研究では単文コーパスを用いる. 統計翻訳の前処理として,各コーパスの日本語文に対して,MeCab[13]を用いて形態素解析を行う. また,英語文に対して ``tokenizer.sed [14]"を用いて正規化を行う. 実験で使用する対訳コーパス,テスト文には電子辞書から抜き出した文 (辞書文) [3]を使用する.尚,テスト文はオープンデータとする.実験で使用するデータを表4.1に示す.


表: 実験で使用する共通データ
データ名 日英翻訳 英日翻訳
対訳コーパス 100,000文 100,000文
テスト文 10,000文 10,000文

追加コーパスとして,辞書文,特許翻訳文,Wikipediaから抜き出した文 (Wikipedia文) をそれぞれ使用する.追加コーパスの辞書文の中身は表4.1のデータとは別のものである.これらの3種類のモノリンガルデータを別々に加え,日英翻訳・英日翻訳で合計6つの実験をする.追加するモノリンガルコーパスの内訳を表4.2に示す.また,各コーパスの例文を次に示す.


表: 実験で追加するモノリンガルデータ
モノリンガルデータの種類 日英翻訳 英日翻訳
辞書文 788,433文 806,324文
特許翻訳文 3,407,225文 3,407,231文
Wikipedia文 14,579,468文 12,607,508文

[
c]辞書文(日本語) 石油 の 発見 で その 国 は 裕福 に なっ た 。
あの 人 の 家 は すぐ 見つかっ た 。
鉄道 株 が 株式 市場 で 暴落 し た 。

[
c]辞書文(英語) The discovery of oil enriched the country .
I soon found that person's house .
Rail stocks took a dive on the stock market .

[
c]特許翻訳文(日本語) FET 1 0 1 4 の ゲート は 信号 ANB に 結合 し て いる 。
この 論理 1 は シフトレジスタ 出力 1 0 8 へ 与え られる 。
いったん 構成 さ れる と 、 経路 を 修正 する の は 困難 で ある 。

[
c]特許翻訳文(英語) The gate of fet 1014 is coupled to signal anb .
This logic 1 is provided to the shift register output 108 .
This is especially true for highly polluted areas .

[
c]Wikipedia文(日本語) アンパサンド と は 「 … と … 」 を 意味 する 記号 で ある 。
その 使用 は 1 世紀 に 遡る こと が でき 、 5 世紀 中葉 から 現代 に 至る まで の 変遷 が わかる 。
プログラミング 言語 で は 、 C など 多数 の 言語 で AND 演算 子 として 用い られる 。

[
c]Wikipedia文(英語) The discovery of oil enriched the country .
Hampshire Bus provide a daily service to and from Alton College on school days . Hampigny is a commune in the Aube department in north-central France .
Hampshire County Council 's Mobile Library Service has served Liss since the 1 9 6 0 s .


next up previous contents
次へ: 翻訳モデルの学習 上へ: 実験方法 戻る: 実験方法   目次
s102025 平成27年3月9日