next up previous contents
次へ: 翻訳精度の評価 上へ: 実験 戻る: 実験   目次

フレーズテーブルのフレーズ対の数

フレーズテーブルの学習には,[*]節で示した,単文171,988文と重 文複文111,719文,計283,707文を用いる.学習データの単語数と,単語区切りフ レーズテーブルと文節区切りフレーズテーブルのフレーズ対の数を表 [*]に示す.


表: 各フレーズテーブルのフレーズ対の数(学習データ:283,707文)
  日本語文の単語数 英語文の単語数 フレーズ対の数
単語区切り(従来手法) 3,377,811 2,828,062 1,742,020
文節区切り 1,695,658 2,828,062 1,041,805

[*]から,単語区切りフレーズテーブルと比較して,文節区切 りフレーズテーブルのフレーズ対の数が,約6割であることがわかる.これは, 文節区切りの学習データの文節数が,単語区切りの学習データの単語数と比較し て,半分程度であることが原因である.

また,単語区切りフレーズテーブルと文節区切りフレーズテーブルには,確率は 異なるが,日本語フレーズと英語フレーズの対応が同じフレーズ対が存在する. 例を以下に示す.

単語区切りフレーズテーブル
1人ずつ $ \vert\vert\vert$ one by one $ \vert\vert\vert$ 0.2 0.0022 1 0.0416
2 0 歳 に なる $ \vert\vert\vert$ will be twenty years old $ \vert\vert\vert$ 0.3333 8.2163e-7 0.3333 1.7498e-6
お茶 の $ \vert\vert\vert$ tea $ \vert\vert\vert$ 0.0097 0.1110 0.2 0.5492
その 問題 について $ \vert\vert\vert$ about the problem $ \vert\vert\vert$ 0.4 0.0059 0.0435 0.0310
世界 的 に $ \vert\vert\vert$ a worldwide $ \vert\vert\vert$ 0.3333 0.0019 0.5 0.0006

文節区切りフレーズテーブル
1人ずつ $ \vert\vert\vert$ one by one $ \vert\vert\vert$ 0.2727 0.001 0.75 0.0416
2 0 歳 に なる $ \vert\vert\vert$ will be twenty years old $ \vert\vert\vert$ 1 0.0002 1 0.0002
お茶 の $ \vert\vert\vert$ tea $ \vert\vert\vert$ 0.0577 0.0280 0.75 0.45
その 問題 について $ \vert\vert\vert$ about the problem $ \vert\vert\vert$ 1 0.0009 0.0263 0.0008
世界 的 に $ \vert\vert\vert$ a worldwide $ \vert\vert\vert$ 0.5 0.0179 1 0.0181

このような,単語区切りフレーズテーブルと文節区切りフレーズテーブルにお いて,日本語フレーズと英語フレーズの対応が同じフレーズ対は,696,644件存 在する.そのため,本手法で生成したユニークなフレーズ対の数は355,161件で ある.


next up previous contents
次へ: 翻訳精度の評価 上へ: 実験 戻る: 実験   目次
平成22年2月17日