next up previous contents
次へ: X線CT所見作成における漢字仮名のマルコフ連鎖確率の収束率 上へ: X線CT所見作成のデータ 戻る: X線CT所見作成のデータ   目次

X線CT所見作成における音節のマルコフ連鎖確率の収束率

X線CT所見作成の文章は''mass effect'',''large magna'',などの外来語が数 多く出現する。そのため音節の種類の数は、新たに ``フェ'', ``グゥ''など をくわえて118種類とした。図3.6に学習データ量に対 する音節のunigram・bigram・trigramおよびエントロピーの値の変化を示す。

図 3.6: X線CT所見における学習データ数に対する音節のマルコフ連鎖確率値のカバー率およびエントロピー
\begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/figure2.4.ps,width=130mm}}\end{center}\end{figure}

3.6 から新聞記事と比較すると、X線CT 所見作成の文章はunigra,bigram,trigramいずれのエントロピーも 低いことや、少ない学習データ量でカバー率が収束 していることがわかる。

また、カバー率のデータを見ると、学習データが増加した場合、 100%は収束しないが98%はほぼ収束することがわかる。



Jin'ichi Murakami 平成13年1月5日