先行研究では,対訳フレーズ対に翻訳確率を付与し,フレーズテーブルに追加する. 通常,フレーズテーブルを作成するためのパラメータにはgrow-diag-finalを使用する. しかし,grow-diag-finalで作成されるフレーズ対は,長いフレーズ対を短いフレーズ対に分割する.長いフレーズ対が短く分割されてしまうと,長い翻訳対に対して,翻訳確率を付与することができないという問題がある.
そこで,長い翻訳対に対して翻訳確率を付与するために,パラメータintersectionで作成したフレーズテーブルのフレーズ対と対訳フレーズ対のマッチングを行う.フレーズ対と対訳フレーズ対が完全に一致した場合にのみ対訳フレーズ対にフレーズテーブルで算出された翻訳確率を付与する. そして,パラメータgrow-diag-finalで作成したフレーズテーブルに,翻訳確率を付与した対訳フレーズ対を追加する.
先行研究の手法を以下に示す.
あらゆる every 0.028 0.0215 0.2888 0.134 |
あらゆる took every possible 0.5 0.02155 0.0444 4.1243 |
いつ when 0.002 0.0025 0.0102 0.0098 |
いつも as usual , 0.04545 0.3188 0.00087 2.394 |
いつも always 0.0425 0.3188 0.0034 0.0002 |
いつも の as usual 0.0425 0.0216 0.0784 0.0002 |
いつも の eleven as usual 0.1428 0.0216 0.0196 4.1846 |
いつも の よう に as usual 0.0106 1.1908 0.5 0.0001 |
いつも の よう に usual 0.0056 1.1908 0.5 0.0294 |
対訳フレーズ対の日本語フレーズと英語フレーズがintersectionで作成したフレーズテーブルのフレーズと一致した場合に,その翻訳確率を対訳フレーズ対に付与する. たとえば,表3.3の2行目``あらゆる every ''に翻訳確率を付与する場合,表3.2の``あらゆる every 0.028 0.0215 0.2888 0.1340 ''1行目の日本語フレーズと英語フレーズと一致する. よって,対訳フレーズ対``あらゆる every ''に翻訳確率``0.028 0.0215 0.2888 0.134''を付与する. 他の対訳フレーズ対に対しても同様にして翻訳確率を付与する.
あまりに too 0.0366 0.0452 0.2038 0.4038 |
あらゆる 場合 に in every case 0.5 0.0006 0.1111 0.0031 |
あらゆる 点 で in every respect 0.0294 0.0002 0.3333 0.0001 |
あらゆる every 0.028 0.0215 0.2888 0.1340 |
いつ when 0.002 0.0025 0.0102 0.0098 |
いつも always 0.0425 0.3188 0.0034 0.0002 |
いつも の よう に as usual 0.0106 1.1908 0.5 0.0001 |
3.1節の手順1のフレーズテーブルを用いた翻訳を先行研究のベースラインとする. また,人手で作成された対訳フレーズ辞書として鳥バンクを用いた先行研究手法を先行研究(鳥バンク)と呼び,英辞郎を用いた先行研究手法を先行研究(英辞郎)と呼ぶ.