next up previous contents
次へ: 評価方法 上へ: 実験データ 戻る: 英辞郎   目次

単文コーパス

本研究では,実験に単文のみを用いる.単文の本来の意味は,主語と述語の関係が1回のみ成り立つ文である. しかし,本研究で用いる単文は,形態素解析器を用いて形態素解析した際に動詞が1つの文を抽出したものである. 例えば,「彼は生き返った。」という文は,本来ならば単文であるが,形態素解析において,「彼/は/生き/返っ/た/。」 と解析された場合には,「生き返る」という動詞ではなく,「生きる」と「返る」の2つの動詞が含まれているとみなして, 本研究には用いない.以下に,本研究で用いる単文コーパスの例を示す.
表: 単文コーパスの例:日本語文
誰だって1人ではできない。
彼女は音楽の先生をしている。
それはできない相談だ。


表: 単文コーパスの例:英語文
No one man can do it .
She is a music teacher .
That's an impossible proposition .

本研究では,辞書の例文より抽出した単文コーパス181,988文[12]から,以下のように用いる.


統計翻訳の前処理として,各コーパスの日本語文に対して,``MeCab[13]"を用いて形態素解析を行う.また,英語文に対して``tokenizer.perl[9]"を用いて分かち書きを行う.



平成23年3月3日