next up previous
Next: Phrase Tables Up: Experiments with Statistical Machine Previous: Removed long parallel sentences

Tokenizer

We make the English punctuation procedure using "tokenizer.perl". This script was written by Josh Schroeder and based on code by Philipp Koehn. This procedure means that we changed "," and "." to " , " and " . ". Also, we did not handle English case. The table 3 show the Japanese and English training parallel data. Also, we convert the complex symbols to simple symbols, like " |||" to " |".


Table 3: Patent-JE training-data
  J    1    流体 圧 シリンダ 3 1 の 場合 は 流体 が 徐々に 排出 さ れる こと と なる 。  
  J    2    そして 、 上記 関係 を 少なくとも 1 0 万 枚 通 紙 し て も 維持 し なけれ ば なら ない 。  
  J    3    以下 、 図面 を 用い て 本 発明 の 実施 例 を 説明 する 。  
  J    4    この よう に し て 車体 を 浮上 さ せ た 場合 に は 、 摩擦 駆動 は 行わ れ ず 、 磁気 誘導 による 推進 駆動 、 さらに は この 推進 駆動 に プロペラ による 補助 推進 駆動 を 加え た 推進 駆動 と なる 。  
  E    1    When the fluid pressure cylinder 31 is used , fluid is gradually applied .  
  E    2    This relation must be maintained even after passing at least 100,000 sheets .  
  E    3    Referring now to the accompanying drawings , a description will be given of the embodiments of the present invention .  
  E    4    In the case where the chassis is made to float in this manner , frictional drive is not provided , and propelling drive derived from magnetic induction , or auxiliary propelling drive using propellers is added .  


next up previous
Next: Phrase Tables Up: Experiments with Statistical Machine Previous: Removed long parallel sentences
Jin'ichi Murakami 2008-12-22