next up previous
次へ: 文型パターンの記述レベルと汎化の方法 上へ: 文型パターン辞書の概要 戻る: 文型パターン辞書の概要

元となった日英対訳標本文

本稿で評価対象とする辞書は,2カ所又は3カ所の述部を持つ[*]日 本語の重文(文接続のある文),複文(埋め込み文のある文)の非線形な表現構 造[*]を文法レベルでパターン化したもの[*]で,以下の 手順で作成されている.すなわち,日本語の基本的な表現が収録されていると見 られる辞書や語学教育用の教科書,機械翻訳機能評価用の試験文等,約30種類の ドキュメント(日英対訳文100万件)から該当する範囲の重文と複文の対訳標本 文12.9万件[*]を取り出し,それを汎化することによって作成されており,単語レベル,句レベ ル,節レベルの3種類の文型パターン(異なり文型パターン22.1万件)が収録さ れている.

文型パターン辞書の作成に使用された標本文の種類と例を表1に示す.


表 1: 対象とした標本文の種別
文種別 述部数 説 明 例 文
文種別1 文接続1カ所を 私はいすに座り、窓の外を眺めた。
    持つ文 彼の声は大きいので、部屋中に響いた。
文種別2 文接続2カ所を 明日は東京に行って 友達に会い久しぶりに話をする。
    持つ文 電話をしながらメモを取ったがそのメモをなくしてしまった。
文種別3 埋込み文1つを \fbox{さっきまでここにいた}猫がいなくなった。
    持つ文 \fbox{お客様にお渡しする}品物は、丁寧に扱って下さい。
文種別4 埋込み文2つを \fbox{約20名を乗せた}飛行機が、 \fbox{人の住んでいない}島に不時着した。
    持つ文 \fbox{父と撮った}写真を \fbox{アメリカにいる}姉に送った。
文種別5 文接続,埋込文 \fbox{彼女の吐き出す}息は白く、頬は赤かった。
    各1を持つ文 \fbox{母が作ってくれた}マフラーを見ると学生時代を思い出す。
<凡例>         :文接続の従属節. \fbox{    }:埋め込み文の従属節

日本語標本文当たりの平均文字数は,23.3字/文(最大148字/文)であり,平均形態素数は,12.9個/文(最大63個/文)である.また,それと対応する英語訳文の平均単語数は,10.3語/文(最大59語/文)である.



平成16年11月17日