next up previous contents
次へ: ATRの国際会議のデータベース 上へ: X線CT所見作成のデータ 戻る: X線CT所見作成における漢字仮名のマルコフ連鎖確率の収束率   目次

X線CT所見作成における単語のマルコフ連鎖確率の収束率

X線CT所見作成の文章の語彙数は約 3000語である。ただし、全体の認識性能を 向上させるため文節出現率が高いものから上位 100文節は単語として登録して あるため、通常、文節と考えられるものまで単語と見なしている(例えば''脳 実質を''は1単語)。X線CT所見作成における単語のマルコフ連鎖確率の収束 性を図3.8 に示す。

図 3.8: X線CT所見における学習データ数に対する単語のマルコフ連鎖確率値のカバー率およびエントロピー
\begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/figure2.6.ps,width=130mm}}\end{center}\end{figure}

3.8からエントロピーは、単語のほうが漢字かな (図3.7)と比較して高いことがわかる。また、カバー率も、単語は 漢字かなと比較して、収束するために大量のデータが必要で あると思われる。

X線CT所見作成の文章のデータでは、単語の種類の数と漢字かな文 字の種類の数は、ほぼ等しい。したがってこの結果は、日本語の 単語の曖昧さを示している可能性がある。



Jin'ichi Murakami 平成13年1月5日