本稿で評価対象とする辞書は,2カ所又は3カ所の述部を持つ日 本語の重文(文接続のある文),複文(埋め込み文のある文)の非線形な表現構 造を文法レベルでパターン化したもので,以下の 手順で作成されている.すなわち,日本語の基本的な表現が収録されていると見 られる辞書や語学教育用の教科書,機械翻訳機能評価用の試験文等,約30種類の ドキュメント(日英対訳文100万件)から該当する範囲の重文と複文の対訳標本 文12.9万件を取り出し,それを汎化することによって作成されており,単語レベル,句レベ ル,節レベルの3種類の文型パターン(異なり文型パターン22.1万件)が収録さ れている.
文型パターン辞書の作成に使用された標本文の種類と例を表1に示す.
文種別 | 述部数 | 説 明 | 例 文 |
文種別1 | 2 | 文接続1カ所を | ・私はいすに座り、窓の外を眺めた。 |
持つ文 | ・彼の声は大きいので、部屋中に響いた。 | ||
文種別2 | 3 | 文接続2カ所を | ・明日は東京に行って 友達に会い久しぶりに話をする。 |
持つ文 | ・電話をしながらメモを取ったがそのメモをなくしてしまった。 | ||
文種別3 | 2 | 埋込み文1つを | ・ 猫がいなくなった。 |
持つ文 | ・ 品物は、丁寧に扱って下さい。 | ||
文種別4 | 3 | 埋込み文2つを | ・ 飛行機が、 島に不時着した。 |
持つ文 | ・ 写真を 姉に送った。 | ||
文種別5 | 3 | 文接続,埋込文 | ・ 息は白く、頬は赤かった。 |
各1を持つ文 | ・ マフラーを見ると学生時代を思い出す。 | ||
<凡例> , :文接続の従属節. :埋め込み文の従属節 |
日本語標本文当たりの平均文字数は,23.3字/文(最大148字/文)であり,平均形態素数は,12.9個/文(最大63個/文)である.また,それと対応する英語訳文の平均単語数は,10.3語/文(最大59語/文)である.