本稿で評価対象とする辞書は,2カ所又は3カ所の述部を持つ日
本語の重文(文接続のある文),複文(埋め込み文のある文)の非線形な表現構
造
を文法レベルでパターン化したもの
で,以下の
手順で作成されている.すなわち,日本語の基本的な表現が収録されていると見
られる辞書や語学教育用の教科書,機械翻訳機能評価用の試験文等,約30種類の
ドキュメント(日英対訳文100万件)から該当する範囲の重文と複文の対訳標本
文12.9万件
を取り出し,それを汎化することによって作成されており,単語レベル,句レベ
ル,節レベルの3種類の文型パターン(異なり文型パターン22.1万件)が収録さ
れている.
文型パターン辞書の作成に使用された標本文の種類と例を表1に示す.
文種別 | 述部数 | 説 明 | 例 文 |
文種別1 | 2 | 文接続1カ所を | ・私はいすに座り、窓の外を眺めた。 |
持つ文 | ・彼の声は大きいので、部屋中に響いた。 | ||
文種別2 | 3 | 文接続2カ所を | ・明日は東京に行って 友達に会い久しぶりに話をする。 |
持つ文 | ・電話をしながらメモを取ったがそのメモをなくしてしまった。 | ||
文種別3 | 2 | 埋込み文1つを | ・
![]() |
持つ文 | ・
![]() |
||
文種別4 | 3 | 埋込み文2つを | ・
![]() ![]() |
持つ文 | ・
![]() ![]() |
||
文種別5 | 3 | 文接続,埋込文 | ・
![]() |
各1を持つ文 | ・
![]() |
||
<凡例> , :文接続の従属節.
![]() |
日本語標本文当たりの平均文字数は,23.3字/文(最大148字/文)であり,平均形態素数は,12.9個/文(最大63個/文)である.また,それと対応する英語訳文の平均単語数は,10.3語/文(最大59語/文)である.