離散記号未処理による問題

次へ: 句レベル文型パターンの検討 上へ: 離散記号処理について 戻る: 離散記号目次

離散記号未処理による問題

評価結果より，離散記号処理の未実装がクロスバリデーション，オープンテストにおいて翻訳失敗文数の増加の大きな原因であることがわかった．よって本節では，離散記号未処理による具体的な問題を考察する． ITMは入力日本語文の処理において，節が離散記号，主に/yに適合することで，適合した節が吸収され，未訳となることである．

以下に離散記号に適合したため，翻訳失敗となった文の例を示す．太字は太字，下線は下線で対応していることを示す．

例

入力日文

株価が急落したために市場が混乱している。

日本語パターン

/y $\sharp$ 1[/tcfkN2の] $\sharp$ 2[/fAJ4rentai]/fN5が $\sharp$ 3[/tcfkTIME7]/fV8.teiru。

英語パターン

$\sharp$ 1[AJ(N2)] $\sharp$ 2[AJ4] N5 V8 $\sharp$ 3[ADV(TIME7)].

訳出英文

Market snarl.

形態素解析

1. /株価(1100)
2. +が(7410)
3. /急落し(2233)
4. +た(7217)
5. /ため(1800)
6. +に(7430)
7. /市場(1100)
8. +が(7410)
9. /混乱し(2233)
10. +ている(2816)
11. +。(0110)
12. /nil

線形要素対応

[N5,が,V8, .teiru,。] = [7,8,9,10,11] = 5
N5 = 7 = 1
V8 = 9 = 1

例の「日本語パターン」，「形態素解析」，「線形要素対応」より，入力文「株価が急落したために市場が混乱している。」は「市場が混乱している。」が日本語パターンの「N5がV8.teiru。」に適合し，「株価が急落したために」の部分は離散記号/yに適合している．結果，英語パターンを適用した際に，/yの部分が欠落し，「Market snarl.」と訳出された．

上例のような翻訳失敗文が正しく処理された場合，どの程度翻訳精度が向上するか，一部の文を用いて確認を行った．方法は，翻訳失敗文に対して要素合成法を利用し，手作業で補完を行なった．作業は上例の「株価が急落したため」と同様の未訳部分を要素合成法により翻訳を行い，ITMで訳出された文に接続した．以下に上例と同文を用いた作業例を示す．

未訳部分: 株価が急落したため
要素合成法により翻訳: Because the stock price had dipped
補完した英文: Because the stock price had dipped, market snarl.

補完後の英文は，評価4の直訳文と判断できる．

同様の，補完により直訳成功となり得る文は，表2のクロスバリデーションにおいては翻訳失敗の55文中30文，表5のオープンテストにおいては翻訳失敗の21文中9文であった．これらの文を全て補完したと仮定すると，翻訳成功率がクロスバリデーションにおいて約22%増加し， 23%から約45%に，オープンテストにおいて約12%増加し，2%から約14%への向上と，直訳成功率がクロスバリデーションにおいて10%から約32%に，オープンテストにおいて1%から約13%への向上が予想される．

平成19年3月12日