このかな漢字変換で使用する漢字かなの連鎖確率は、サンプルデー
タが無限大にあったときに得られる ``真の連鎖確率''を仮定して
いる。しかし、実際には限られた数のサンプルデータから連鎖確率
を推定する。この場合、もっとも問題になるのは、サンプルデータ
中に出現しない連鎖の連鎖確率を、どのように推定するかというこ
とである。この実験では2重連鎖がないとき、連鎖確率を計算上の
都合からも非常に小さい値exp(-1000)に設定した。一方、連鎖確率
を、 1重連鎖確率0.0001 と設定して同様な実験を行なっ
たところ、オープンデータにおいて1位正解率は90%まで上昇する
ことが観測された。限られたサンプルデータから、連鎖確率を推定
する方法としてとして、他にdeleted
interpolation[5]などが知られているが、今後この問
題は検討する余地があると思われる。