next up previous contents
次へ: 分析実験 上へ: 実験 戻る: 実験   目次

実験データ

対訳学習文および翻訳実験に用いるテスト文は電子辞書から抽出した単文データベースを用いる[11].なお,単文データは日本語文が単文であるが,英語文は単文とは限らず,重文・複文が含まれる. 前処理として日本語学習文に対して形態素解析エンジンMeCab[12]を用いて分かち書きを行う.また,英語学習文に対してtokenizer.perl[6]を用いて分かち書きを行う. 対訳学習文および翻訳実験に用いるテスト文の例を表4.1に,コーパスの内訳を表4.2に示す.


表: 対訳学習文および翻訳実験に用いるテスト文の例
日本語文 ナンシー と テニス を し た 。
英語文 I played tennis with Nancy .
日本語文 ぼく は バス の 中 で 先生 に 会っ た 。
英語文 I saw our teacher on the bus .
日本語文 彼女 は テスト で 良い 点 を とっ た 。
英語文 She got a good score on the test .


表: コーパスの内訳
対訳学習文 100,000文対
テスト文 100文

人手で作成した対訳句には鳥バンク[13]の対訳句を用いる.鳥バンクは自然言語処理のための言語知識ベースを収録したデータバンクであり,日本語の重文と複文を対象とする``意味類型パターン辞書"が収録されている.本研究では鳥バンクから抽出した対訳句329,545句対を用いる.鳥バンクから抽出した対訳句の例を表4.3に示す.


表: 鳥バンクから抽出した対訳句の例
日本語句 ある プログラム
英語句 a program
日本語句 とても 有効 な
英語句 very useful
日本語句 家族 から
英語句 from the family
日本語句 英語 の 勉強 を し
英語句 study English


next up previous contents
次へ: 分析実験 上へ: 実験 戻る: 実験   目次
平成27年3月13日