次へ: ベースラインシステム
上へ: 実験条件
戻る: データベース
目次
句に基づく文パターンを用いた英日翻訳
以下に4.2節における実験条件を示す.
- 手順1 単語辞書
-
- 対訳学習文100,000文を用いる.
- 単語に基づく文パターンの出力数を抑制するため,閾値を0.1とする.
- 手順2 単語に基づく文パターン辞書
-
- 対訳学習文100,000文を用いる.
- 先行研究 [13]に,単文の文パターン辞書作成が行われている.この研究では,変数に意味属性制約を付与して文パターンを作成している.しかし,本研究で作成する文パターンには意味属性の付与を行わない.手順4の句に基づく文パターン辞書の作成も同様である.
- 手順3 フレーズ辞書
-
- 対訳学習文100,000文を用いる.
- 句に基づく文パターンの出力数を抑制するため,閾値を100.0とする.
- 手順4 句に基づく対訳文パターン辞書
-
- 対訳学習文1文に対し,文パターンの出力数は最大100,000パターンまでとする.
- 句に基づく文パターンの作成には,フレーズ辞書(手順3)を用いる.ただし,1つの英語フレーズに対して,付与されたフレーズ確率が高い上位2つの日本語フレーズを抽出して利用する.
- 手順5 英日パターン翻訳
-
- 英日パターン翻訳は入力文として英語文100文を用いる.
- 英日パターン翻訳には,フレーズ辞書(手順3)と句に基づく文パターン辞書(手順4)を用いる.ただし,1つの英語フレーズに対して,付与されたフレーズ確率が高い上位512の日本語フレーズを抽出して利用する.
- 英語文パターンの選択
- 英語文パターンを選択する際は,英語入力文と英語文パターンの字面を比較し,最も多く字面が一致する英語文パターンを優先して選択する.
- 英語入力文1文に対し,英語文パターンの選択数は1,000文までとする.
- 言語翻訳確率(tri-gram)の計算
- 日本語翻訳文に対して言語翻訳確率(tri-gram)を計算する.
- 言語翻訳確率(tri-gram)は対訳学習文の日本語文100,000文を用いる.
- 日本語翻訳文
- 翻訳精度の低い出力文を除外するために,閾値を1,000.0とする.
平成26年3月13日