next up previous
次へ: まとめ 上へ: 考察 戻る: 未知語の存在しないかな漢字変換

連鎖確率の推定問題

このかな漢字変換で使用する漢字かなの連鎖確率は、サンプルデー タが無限大にあったときに得られる ``真の連鎖確率''を仮定して いる。しかし、実際には限られた数のサンプルデータから連鎖確率 を推定する。この場合、もっとも問題になるのは、サンプルデータ 中に出現しない連鎖の連鎖確率を、どのように推定するかというこ とである。この実験では2重連鎖がないとき、連鎖確率を計算上の 都合からも非常に小さい値exp(-1000)に設定した。一方、連鎖確率 を、 1重連鎖確率$\times$0.0001 と設定して同様な実験を行なっ たところ、オープンデータにおいて1位正解率は90%まで上昇する ことが観測された。限られたサンプルデータから、連鎖確率を推定 する方法としてとして、他にdeleted interpolation[5]などが知られているが、今後この問 題は検討する余地があると思われる。



平成15年9月30日