next up previous contents
次へ: デコーダ 上へ: 実験方法 戻る: 翻訳モデルの学習   目次

言語モデルの学習

言語モデルを学習するために,``SRILM[11]''の ``ngram-count''を用いる. N-gramモデルに5-gramの言語モデルを用いる. また,SRILMでは学習データの量に限界がある.そのため,データ量の多いWikipedia文において,``clean-corpus-n.perl''を用いることにより,80単語以上が出現する文をカットする.統計翻訳における単語量の多い文は不要とされているため,翻訳精度に影響は出ない.カットされたWikipedia文の日本語文,英語文のデータ量が表4.2である.



s102025 平成27年3月9日