next up previous contents
次へ: 表現解析器 上へ: 本研究に関連する先行研究 戻る: 本研究に関連する先行研究   目次

文型パターン辞書の構築

文型パターン辞書は,約12万文の日英文対応の対訳コーパスから作成された [1].対訳コーパス中の日英 文をそれぞれ日本語原文,英語原文とし,単語レベル,句レベル,節レベルの3 つのレベルに応じた粒度でアライメントが取れた部分は,線形要素として変数 化される.逆に,変数化すると訳出が困難になる部分は変数化を行わず,非線 形要素として字面あるいは記号で表現する.文型パターン辞書は,3つのレベ ルで約23万件の対訳パターンを集録している.

文型パターンの例を以下に示す.
日本語原文:信号が青になってから道路を渡りなさい。
英語原文:Cross the street after the traffic light turns green.
日本語パターン(単語レベル):#1{$N1$が,$N2$に}なってから$N3$を ($V4$^$meirei$|$V4.meireigo$)。
英語パターン(単語レベル):$V4$ $N3$ after $N1$ turn $N2$.
日本語パターン(句レベル):$N1$$VP2$(てから|でから) ($VP3$^$meirei$|$VP3.meireigo$)。
英語パターン(句レベル):$VP3$ after $N1$ $VP2$.
日本語パターン(節レベル):$CL1$(てから|でから) ($CL2$^$meirei$|$CL2.meireigo$)。
英語パターン(節レベル):$CL2$ after $CL1$.

例の日英パターンにおいて,$N$$V$$VP$および$CL$は変数を表し, ^$meirei$および$.meireigo$は関数,#数{パターン記述|パターン記 述}および(パターン記述|パターン記述)は記号を表す.


平成19年3月16日