次へ: 評価方法
上へ: 実験データ
戻る: 英辞郎
目次
本研究では,実験に単文のみを用いる.単文の本来の意味は,主語と述語の関係が1回のみ成り立つ文である.
しかし,本研究で用いる単文は,形態素解析器を用いて形態素解析した際に動詞が1つの文を抽出したものである.
例えば,「彼は生き返った。」という文は,本来ならば単文であるが,形態素解析において,「彼/は/生き/返っ/た/。」
と解析された場合には,「生き返る」という動詞ではなく,「生きる」と「返る」の2つの動詞が含まれているとみなして,
本研究には用いない.以下に,本研究で用いる単文コーパスの例を示す.
表:
単文コーパスの例:日本語文
誰だって1人ではできない。 |
彼女は音楽の先生をしている。 |
それはできない相談だ。 |
表:
単文コーパスの例:英語文
No one man can do it . |
She is a music teacher . |
That's an impossible proposition . |
本研究では,辞書の例文より抽出した単文コーパス181,988文[12]から,以下のように用いる.
- 日英対訳コーパス:50,000文対
- 英語学習文:100,000文
- 日本語学習文:100,000文
- テスト文:10,000文
- ディベロップメント文:2,000文(日本語学習文の翻訳に1,000文,テスト文の翻訳に1,000文)
統計翻訳の前処理として,各コーパスの日本語文に対して,``MeCab[13]"を用いて形態素解析を行う.また,英語文に対して``tokenizer.perl[9]"を用いて分かち書きを行う.
平成23年3月3日