X線CT所見作成の文章は''mass effect'',''large magna'',などの外来語が数 多く出現する。そのため音節の種類の数は、新たに ``フェ'', ``グゥ''など をくわえて118種類とした。図3.6に学習データ量に対 する音節のunigram・bigram・trigramおよびエントロピーの値の変化を示す。
図3.6 から新聞記事と比較すると、X線CT 所見作成の文章はunigra,bigram,trigramいずれのエントロピーも 低いことや、少ない学習データ量でカバー率が収束 していることがわかる。
また、カバー率のデータを見ると、学習データが増加した場合、 100%は収束しないが98%はほぼ収束することがわかる。