連鎖確率の推定問題

次へ: まとめ 上へ: 考察 戻る: 未知語の存在しないかな漢字変換

連鎖確率の推定問題

このかな漢字変換で使用する漢字かなの連鎖確率は、サンプルデータが無限大にあったときに得られる ``真の連鎖確率''を仮定している。しかし、実際には限られた数のサンプルデータから連鎖確率を推定する。この場合、もっとも問題になるのは、サンプルデータ中に出現しない連鎖の連鎖確率を、どのように推定するかということである。この実験では２重連鎖がないとき、連鎖確率を計算上の都合からも非常に小さい値exp(-1000)に設定した。一方、連鎖確率を、 1重連鎖確率 $\times$ 0.0001 と設定して同様な実験を行なったところ、オープンデータにおいて1位正解率は90%まで上昇することが観測された。限られたサンプルデータから、連鎖確率を推定する方法としてとして、他にdeleted interpolation[5]などが知られているが、今後この問題は検討する余地があると思われる。

平成15年9月30日