next up previous contents
Next: 評価方法 Up: 実験環境 Previous: 統計翻訳器   目次

実験データ

本研究では,電子辞書などの例文より抽出した単文コーパス[14]を用いる.使用するデータの内訳を表5.1に示す.



表 5.1: 実験データ
\scalebox{1.00}[1.00]{
\begin{tabular}{\vert c\vert r\vert}
\hline
対訳学習文 & 160,000文 \\ \hline
入力文 & 10,000文 \\ \hline
\end{tabular} }



また,統計翻訳の前処理として,各コーパスの日本語文に対して,``MeCab[15]"を用いて形態素解析を行う.そして,英語文に対して``tokenizer.perl[16]"を用いて分かち書きを行う.表5.2に単文コーパスの例を示す.


表 5.2: 単文コーパスの例
日本語文 水 が 腐っ て いる 。
英語文 The water is foul .
日本語文 素行 を 改め なさい 。
英語文 You should mend your ways .




s122019 2018-02-15