next up previous contents
Next: 評価方法 Up: 実験環境 Previous: デコーダのパラメータ   目次

実験データ

本研究では,実験に単文のみを用いる.単文の本来の意味は,主語と述語の関係が1回のみ成り立つ文である.しかし,本研究で用いる単文は,形態素解析器を用いて形態素解析した際に動詞が1つの文を抽出したものである.例えば,「彼は生き返った。」という文は,本来ならば単文であるが,形態素解析において,「彼/は/生き/返っ/た/。」と解析された場合には,「生き返る」という動詞ではなく,「生きる」と「返る」の2つの動詞が含まれているとみなして,本研究には用いない.以下に,本研究で用いる単文コーパスの例を示す.
表: 単文コーパスの例
日本語句 水 が 腐っ て いる 。
英語句 The water is foul .
日本語句 素行 を 改め なさい 。
英語句 You should mend your ways .
日本語句 彼 は 最後 の 断 を 下し た 。
英語句 He made a final decision .

本研究では,電子辞書などの例文より抽出した単文コーパス[8]を用いる.使用するデータの内訳を表[*]に示す.

表: 実験データ
\scalebox{1.00}[1.00]{
\begin{tabular}{\vert c\vert r\vert}
\hline
日本語...
...ト文 & 1,000文 \\ \hline
テスト文 & 10,000文 \\ \hline
\end{tabular} }



統計翻訳の前処理として,各コーパスの日本語文に対して,``MeCab[9]"を用いて形態素解析を行う.また,英語文に対して``tokenizer.perl[6]"を用いて分かち書きを行う.



s122019 2016-03-03