next up previous contents
次へ: 翻訳モデルの学習 上へ: 実験環境 戻る: 実験環境   目次

日英対訳コーパス

本研究では日英対訳コーパスとして,単文コーパスと重文複文コーパス[4]を用いる. 統計翻訳の前処理として,各コーパスの日本語文に対して,MeCab[14]を用いて形態素解析を行う. また,英語文に対して ``tokenizer.sed [15]"を用いて正規化を行う. 本研究で用いる単文コーパス[4],重文複文コーパス[4]を表4.1の内訳で用いる.


表: 日英対訳文対数
\scalebox{0.95}{
\begin{tabular}{\vert c\vert r\vert r\vert}
\hline
& \multicolu...
... & 1,000文  \hline
テストデータ & 10,000文 & 10,000文  \hline
\end{tabular}}




平成26年3月29日