next up previous contents
次へ: 実験データ 上へ: 先行研究 戻る: 先行研究   目次

先行研究手法

先行研究では,対訳フレーズ対に翻訳確率を付与し,フレーズテーブルに追加する. 通常,フレーズテーブルを作成するためのパラメータにはgrow-diag-finalを使用する. しかし,grow-diag-finalで作成されるフレーズ対は,長いフレーズ対を短いフレーズ対に分割する.長いフレーズ対が短く分割されてしまうと,長い翻訳対に対して,翻訳確率を付与することができないという問題がある.

そこで,長い翻訳対に対して翻訳確率を付与するために,パラメータintersectionで作成したフレーズテーブルのフレーズ対と対訳フレーズ対のマッチングを行う.フレーズ対と対訳フレーズ対が完全に一致した場合にのみ対訳フレーズ対にフレーズテーブルで算出された翻訳確率を付与する. そして,パラメータgrow-diag-finalで作成したフレーズテーブルに,翻訳確率を付与した対訳フレーズ対を追加する.

先行研究の手法を以下に示す.

手順1
学習データからパラメータgrow-diag-finalでフレーズテーブルを作成する. grow-diag-finalで作成したフレーズテーブルの例を表3.1に示す.

表: grow-diag-finalで作成したフレーズテーブルの例
あまりに $\vert\vert\vert$ too $\vert\vert\vert$ 0.0366 0.0452 0.2038 0.4038
あらゆる 場合 に $\vert\vert\vert$ in every case $\vert\vert\vert$ 0.5 0.0006 0.1111 0.0031
あらゆる 点 で $\vert\vert\vert$ in every respect $\vert\vert\vert$ 0.0294 0.0002 0.3333 0.0001

手順2
学習データからパラメータintersectionでフレーズテーブルを作成する. intersectionで作成したフレーズテーブルの例を表3.2に示す.

表: intersectionで作成したフレーズテーブルの例
あらゆる $\vert\vert\vert$ every $\vert\vert\vert$ 0.028 0.0215 0.2888 0.134
あらゆる $\vert\vert\vert$ took every possible $\vert\vert\vert$ 0.5 0.02155 0.0444 4.1243
いつ $\vert\vert\vert$ when $\vert\vert\vert$ 0.002 0.0025 0.0102 0.0098
いつも $\vert\vert\vert$ as usual , $\vert\vert\vert$ 0.04545 0.3188 0.00087 2.394
いつも $\vert\vert\vert$ always $\vert\vert\vert$ 0.0425 0.3188 0.0034 0.0002
いつも の $\vert\vert\vert$ as usual $\vert\vert\vert$ 0.0425 0.0216 0.0784 0.0002
いつも の $\vert\vert\vert$ eleven as usual $\vert\vert\vert$ 0.1428 0.0216 0.0196 4.1846
いつも の よう に $\vert\vert\vert$ as usual $\vert\vert\vert$ 0.0106 1.1908 0.5 0.0001
いつも の よう に $\vert\vert\vert$ usual $\vert\vert\vert$ 0.0056 1.1908 0.5 0.0294

手順3
対訳フレーズ対の形式をフレーズテーブルの形式に変換する. 対訳フレーズ対の形式をフレーズテーブルの形式に変換した例を表3.3に示す.

表: 対訳フレーズ対の形式をフレーズテーブルの形式に変換した例
あらゆる $\vert\vert\vert$ all $\vert\vert\vert$
あらゆる $\vert\vert\vert$ every $\vert\vert\vert$
いつ $\vert\vert\vert$ when $\vert\vert\vert$
いつ から $\vert\vert\vert$ how long? $\vert\vert\vert$
いつも $\vert\vert\vert$ always $\vert\vert\vert$
いつも $\vert\vert\vert$ at all times $\vert\vert\vert$
いつも の よう に $\vert\vert\vert$ as usual $\vert\vert\vert$
いつも の よう に $\vert\vert\vert$ as always $\vert\vert\vert$

手順4
手順2で作成したフレーズテーブルを参照して対訳フレーズ対に翻訳確率を付与する. 対訳フレーズ対に翻訳確率を付与した例を表3.4に示す.


表: 対訳フレーズ対に翻訳確率を付与した例
あらゆる $\vert\vert\vert$ every $\vert\vert\vert$ 0.028 0.0215 0.2888 0.134
いつ $\vert\vert\vert$ when $\vert\vert\vert$ 0.002 0.0025 0.0102 0.0098
いつも $\vert\vert\vert$ always $\vert\vert\vert$ 0.0425 0.3188 0.0034 0.0002
いつも の よう に $\vert\vert\vert$ as usual $\vert\vert\vert$ 0.0106 1.1908 0.5 0.0001

対訳フレーズ対の日本語フレーズと英語フレーズがintersectionで作成したフレーズテーブルのフレーズと一致した場合に,その翻訳確率を対訳フレーズ対に付与する. たとえば,表3.3の2行目``あらゆる $\vert\vert\vert$ every $\vert\vert\vert$''に翻訳確率を付与する場合,表3.2の``あらゆる $\vert\vert\vert$ every $\vert\vert\vert$ 0.028 0.0215 0.2888 0.1340 ''1行目の日本語フレーズと英語フレーズと一致する. よって,対訳フレーズ対``あらゆる $\vert\vert\vert$ every $\vert\vert\vert$''に翻訳確率``0.028 0.0215 0.2888 0.134''を付与する. 他の対訳フレーズ対に対しても同様にして翻訳確率を付与する.

手順5
手順1で作成したフレーズテーブルに翻訳確率を付与した対訳フレーズ対を追加する. 手順1で作成したフレーズテーブルに翻訳確率を付与した翻訳対を追加した例を 表3.5に示す.

表: 手順1で作成したフレーズテーブルに翻訳確率を付与した翻訳対を追加した例
あまりに $\vert\vert\vert$ too $\vert\vert\vert$ 0.0366 0.0452 0.2038 0.4038
あらゆる 場合 に $\vert\vert\vert$ in every case $\vert\vert\vert$ 0.5 0.0006 0.1111 0.0031
あらゆる 点 で $\vert\vert\vert$ in every respect $\vert\vert\vert$ 0.0294 0.0002 0.3333 0.0001
あらゆる $\vert\vert\vert$ every $\vert\vert\vert$ 0.028 0.0215 0.2888 0.1340
いつ $\vert\vert\vert$ when $\vert\vert\vert$ 0.002 0.0025 0.0102 0.0098
いつも $\vert\vert\vert$ always $\vert\vert\vert$ 0.0425 0.3188 0.0034 0.0002
いつも の よう に $\vert\vert\vert$ as usual $\vert\vert\vert$ 0.0106 1.1908 0.5 0.0001

手順6
手順5で追加したフレーズテーブルを用いて統計翻訳を行う.

3.1節の手順1のフレーズテーブルを用いた翻訳を先行研究のベースラインとする. また,人手で作成された対訳フレーズ辞書として鳥バンクを用いた先行研究手法を先行研究(鳥バンク)と呼び,英辞郎を用いた先行研究手法を先行研究(英辞郎)と呼ぶ.


next up previous contents
次へ: 実験データ 上へ: 先行研究 戻る: 先行研究   目次
平成23年3月23日