next up previous contents
次へ: 翻訳精度の評価 上へ: 学習データの英語文に対する提案手法の適用 戻る: 英語文に対する提案手法の適用法   目次

フレーズテーブルのフレーズ対の数

フレーズテーブルの学習には,[*]章と同様に,単文171,988文と重 文複文111,719文を用いる. 学習データの単語数と,生成されたフレーズテーブルのフレーズ対の数を表[*]に示す.


表: 英語文をフレーズ単位に統合した場合の各フレーズテーブルのフレーズ対の数(学習データ:283,707文)
  日本語文の単語数 英語文の単語数 フレーズ対の数
日:単語,英:単語(従来手法) 3,377,811 2,828,062 1,742,020
日:単語,英:フレーズ 3,377,811 2,215,378 1,147,845
日:文節,英:フレーズ 1,695,658 2,215,378 798,124

[*]から,従来手法のフレーズテーブルと比較して,単語区 切りの日本語文とフレーズ単位に統合された英語文から生成されたフレーズテー ブルのフレーズ対の数は約7割,文節区切りの日本語文とフレーズ単位に統合さ れた英語文から生成されたフレーズテーブルのフレーズ対の数は約5割であるこ とがわかる.

また,文節区切りフレーズテーブルと同様に,本章で生成したフレーズテーブル にも,従来手法のフレーズテーブルのフレーズ対と,確率は異なるが,日本語フレー ズと英語フレーズの対応が同じフレーズ対が存在する.これは,単語区切りの日本語文と フレーズ単位に統合された英語文から生成されたフレーズテーブルでは718,893 件あり,文節区切りの日本語文とフレーズ単位に統合された英語文から生成されたフ レーズテーブルでは546,054件ある.



平成22年2月17日