次へ: デコーダ 上へ: 実験方法 戻る: 翻訳モデルの学習目次

言語モデルの学習

言語モデルを学習するために，``SRILM[11]''の ``ngram-count''を用いる． N-gramモデルに5-gramの言語モデルを用いる．また，SRILMでは学習データの量に限界がある．そのため，データ量の多いWikipedia文において，``clean-corpus-n.perl''を用いることにより，80単語以上が出現する文をカットする．統計翻訳における単語量の多い文は不要とされているため，翻訳精度に影響は出ない．カットされたWikipedia文の日本語文，英語文のデータ量が表4.2である．

s102025 平成27年3月9日