表から,単語区切りフレーズテーブルと比較して,文節区切 りフレーズテーブルのフレーズ対の数が,約6割であることがわかる.これは, 文節区切りの学習データの文節数が,単語区切りの学習データの単語数と比較し て,半分程度であることが原因である.
また,単語区切りフレーズテーブルと文節区切りフレーズテーブルには,確率は 異なるが,日本語フレーズと英語フレーズの対応が同じフレーズ対が存在する. 例を以下に示す.
単語区切りフレーズテーブル |
1人ずつ
one by one
0.2 0.0022 1 0.0416
2 0 歳 に なる will be twenty years old 0.3333 8.2163e-7 0.3333 1.7498e-6 お茶 の tea 0.0097 0.1110 0.2 0.5492 その 問題 について about the problem 0.4 0.0059 0.0435 0.0310 世界 的 に a worldwide 0.3333 0.0019 0.5 0.0006
|
文節区切りフレーズテーブル |
1人ずつ
one by one
0.2727 0.001 0.75 0.0416
2 0 歳 に なる will be twenty years old 1 0.0002 1 0.0002 お茶 の tea 0.0577 0.0280 0.75 0.45 その 問題 について about the problem 1 0.0009 0.0263 0.0008 世界 的 に a worldwide 0.5 0.0179 1 0.0181 |
このような,単語区切りフレーズテーブルと文節区切りフレーズテーブルにお いて,日本語フレーズと英語フレーズの対応が同じフレーズ対は,696,644件存 在する.そのため,本手法で生成したユニークなフレーズ対の数は355,161件で ある.