次へ: 翻訳精度の評価
上へ: 学習データの英語文に対する提案手法の適用
戻る: 英語文に対する提案手法の適用法
目次
フレーズテーブルの学習には,章と同様に,単文171,988文と重
文複文111,719文を用いる.
学習データの単語数と,生成されたフレーズテーブルのフレーズ対の数を表に示す.
表:
英語文をフレーズ単位に統合した場合の各フレーズテーブルのフレーズ対の数(学習データ:283,707文)
|
日本語文の単語数 |
英語文の単語数 |
フレーズ対の数 |
日:単語,英:単語(従来手法) |
3,377,811 |
2,828,062 |
1,742,020 |
日:単語,英:フレーズ |
3,377,811 |
2,215,378 |
1,147,845 |
日:文節,英:フレーズ |
1,695,658 |
2,215,378 |
798,124 |
表から,従来手法のフレーズテーブルと比較して,単語区
切りの日本語文とフレーズ単位に統合された英語文から生成されたフレーズテー
ブルのフレーズ対の数は約7割,文節区切りの日本語文とフレーズ単位に統合さ
れた英語文から生成されたフレーズテーブルのフレーズ対の数は約5割であるこ
とがわかる.
また,文節区切りフレーズテーブルと同様に,本章で生成したフレーズテーブル
にも,従来手法のフレーズテーブルのフレーズ対と,確率は異なるが,日本語フレー
ズと英語フレーズの対応が同じフレーズ対が存在する.これは,単語区切りの日本語文と
フレーズ単位に統合された英語文から生成されたフレーズテーブルでは718,893
件あり,文節区切りの日本語文とフレーズ単位に統合された英語文から生成されたフ
レーズテーブルでは546,054件ある.
平成22年2月17日