次へ: デコーダ
上へ: 実験方法
戻る: 翻訳モデルの学習
目次
言語モデルを学習するために,``SRILM[11]''の ``ngram-count''を用いる.
N-gramモデルに5-gramの言語モデルを用いる.
また,SRILMでは学習データの量に限界がある.そのため,データ量の多いWikipedia文において,``clean-corpus-n.perl''を用いることにより,80単語以上が出現する文をカットする.統計翻訳における単語量の多い文は不要とされているため,翻訳精度に影響は出ない.カットされたWikipedia文の日本語文,英語文のデータ量が表4.2である.
s102025
平成27年3月9日