次へ: 翻訳モデルの学習 上へ: 実験環境 戻る: 実験環境目次

日英対訳コーパス

本研究では日英対訳コーパスとして，単文コーパスと重文複文コーパス[4]を用いる．統計翻訳の前処理として，各コーパスの日本語文に対して，MeCab[14]を用いて形態素解析を行う．また，英語文に対して ``tokenizer.sed [15]"を用いて正規化を行う．本研究で用いる単文コーパス[4]，重文複文コーパス[4]を表4.1の内訳で用いる．

表: 日英対訳文対数
$\scalebox{0.95}{ \begin{tabular}{\vert c\vert r\vert r\vert} \hline & \multicolu... ... & 1,000文 \hline テストデータ & 10,000文 & 10,000文 \hline \end{tabular}}$

平成26年3月29日