next up previous
次へ: 作成された文型パターンの例と数 上へ: 重文と複文の文型パターン化 戻る: 重文と複文の文型パターン化

対象例文と作業の状況

(1)
対象とする日英対訳例文

 まず,辞書や日本語教材をはじめとする約30種類の対訳データファイルから作成した100万文の対訳コーパスから,重文,複文15.5万件の対訳文を機械的に抽出した.その中には,会話文や文脈依存の訳文が含まれていたため,それらを人手で振るい分け,12.9万件を標本文として3種類の文型パターンを作成した.表3に抽出した対訳文と文型パターン化の対象とした標本文の内訳を示す.

 対象文に含まれる単語の種類と数を表4に示す.また,対訳標本文の平均文字数などを以下に示す.

日本語原文
:平均文字数/文=23.3字(最大148字)

     平均形態素数=12.9個/文(最大63個)

英文訳文
:平均単語数=10.3語/文(最大59語)


表 3: 対訳標本文数と作成した文型パターン数
文種別 説明 抽出した対訳文数 対象とした標本文数
文種別1 文接続1カ所を持つ文 72,018 57,235 (44%)
文種別2 文接続2カ所を持つ文 7,292 6,196 (5%)
文種別3 埋込み文1つを持つ文 54,931 46,907 (36%)
文種別4 埋込み文2つを持つ文 6,688 5,986 (5%)
文種別5 文接続と埋込文各1つを持つ文 14,029 12,389 (10%)
−− 合計 154,958 128,713 (100%)


表 4: 品詞毎の出現回数
種別 形態素数
延度数 異り語数
名詞 417,886 56,861
本動詞 223,178 10,324
補助動詞 51,918 271
形容詞 31,681 915
形容動詞 19,587 2,562
副詞 39,051 3,191
連体詞 32,585 731
接続詞 3,146 77
感嘆詞 147 60
10 接頭辞 1,068 110
11 接尾辞 1,749 336
12 助動詞 165,251 236
13 助詞 465,811 349
14 記号 121,555 32
合 計 1,574,613 76,055

(2)
文型パターンの適切性の検証

 文型パターン化作業の結果を確認するため,文型パターン照合プログラムを用意し,作成された全文型パターンに対する照合実験を行った.作成した文型パターンの総数と不適切文型パターン数の推移を表5に示す.


表 5: 不適切文型パターン数の推移
種別 作成した 不適合パターン数
文型パターン数 初期段階 現段階
単語レベル 128,071 58,194 (45.4%) 165 (0.13%)
句レベル 104,619 18,643 (17.8%) 1,810 (1.7%)
節レベル 13,031 4,638 (35.5%) 2,381 (18.3%)
合 計 245,721 81,475 4,356 (1.8%)

 この実験では,文型パターンの作成に使用した標本文を入力文として文型パターン辞書を検索し,適合する文型パターンの中に,自分自身から作成された文型パターン(「自己パターン」と言う)が含まれるかどうかを確認した.

 その結果,最初の段階では,単語レベル,句レベル,節レベルで,それぞれ45%,18%,35%の文型パターンに誤りがあることが判明したが,誤りの多くは,自動変数化プログラムに組み込まれた規則と文型パターン記述仕様との不整合に起因するもので,人手修正の必要な文型パターンの記述誤りは約5,000件であった.節レベルでは,まだ18%の不適合パターンを残しているが,この大半は,文型照合プログラムの機能不足により照合に失敗しているもので,文型パターン記述の誤りは少ないと思われる.

 以上の結果,文法レベルにおいて約24.6万件の文型パターンをほぼ1年間(3.4人年)で作成することができた.人手作業に頼る場合[*]に比べて,作業工数は,約1/10に減少したものと推定される.


next up previous
次へ: 作成された文型パターンの例と数 上へ: 重文と複文の文型パターン化 戻る: 重文と複文の文型パターン化
平成16年8月30日