評価結果より,離散記号処理の未実装がクロスバリデーション,オープンテス トにおいて翻訳失敗文数の増加の大きな原因であることがわかった.よって本 節では,離散記号未処理による具体的な問題を考察する. ITMは入力日本語文の処理において,節が離散記号,主に/yに適合すること で,適合した節が吸収され,未訳となることである.
以下に離散記号に適合したため,翻訳失敗となった文の例を示す.太字は太字, 下線は下線で対応していることを示す.
例
1. /株価(1100)
2. +が(7410)
3. /急落し(2233)
4. +た(7217)
5. /ため(1800)
6. +に(7430)
7. /市場(1100)
8. +が(7410)
9. /混乱し(2233)
10. +ている(2816)
11. +。(0110)
12. /nil
[N5,が,V8, .teiru,。] = [7,8,9,10,11] =
5
N5 = 7 = 1
V8 = 9 = 1
例の「日本語パターン」,「形態素解析」,「線形要素対応」より,入力文「株価が急落したために 市場が混乱している。」は「市場が混乱している。」が日本語パターンの「N5がV8.teiru。」に 適合し,「株価が急落したために」の部分は離散記号/yに適合している. 結果,英語パターンを適用した際に,/yの部分が欠落し,「Market snarl.」と 訳出された.
上例のような翻訳失敗文が正しく処理された場合,どの程度翻訳精度が向上す るか,一部の文を用いて確認を行った.方法は,翻訳失敗文に対して要素合成法を利用し,手 作業で補完を行なった.作業は上例の「株価が急落したため」と同様の未訳部 分を要素合成法により翻訳を行い,ITMで訳出された文に接続した.以下に上 例と同文を用いた作業例を示す.
補完後の英文は,評価4の直訳文と判断できる.
同様の,補完により直訳成功となり得る文は,表2のクロス バリデーションにおいては翻訳失敗の55文中30文,表5のオー プンテストにおいては翻訳失敗の21文中9文であった.これらの文を全て補完 したと仮定すると,翻訳成功率がクロスバリデーションにおいて約22%増加し, 23%から約45%に,オープンテストにおいて約12%増加し,2%から約14%へ の向上と,直訳成功率がクロスバリデーションにおいて10%から約32%に,オー プンテストにおいて1%から約13%への向上が予想される.