マルコフモデルを利用したかな漢字変換の変換精度を調べるため に実験を行なった。実験は漢字かなの1重マルコフモデルおよび漢 字かなの2重マルコフモデルの2つのモデルについて調べた。そし て、3.1に示したマルコフモデルの連鎖確率に対するオープンデー タとして1982年1月1日の日経新聞の記事を、クローズドデータとし て1982年1年5日の記事を選んだ。入力は文節単位のひらがなとし、 50文節を実験した。使用した単語辞書の語彙数は約6万語である。 また、計算中、連鎖確率が0のとき、すべての漢字かなまじり文が0 になる可能性があるため、値を微小値exp(-1000)に置き換えた。
漢字かなの1重マルコフモデルによるかな漢字変換の実験結果を表 2に、2重マルコフモデルの実験結果を表3に示す。
表2と3から示されるように、かな漢字変換に漢字かなの2重マル コフモデルを使用したとき1重マルコフモデルと比較して変換精度は 飛躍的に高くなり、オープンデータで86%、クローズデータでは 98%の正解率が得られた。
漢字かなの1重マルコフモデルを使用したときに、1位に正解が出 力されなかった文節の出力結果を、表4および表5に示す。表4は クローズドデータで、表5はオープンデータの実験結果である。こ の結果をみると、クローズドデータの誤りは表記が異なっているに しかすぎないと考えられるため、実質的にはクローズドデータの1 位正解率は100%と考えられる。また、オープンデータの誤りのな かでA,Dは意味的に正しい文節であると考えられる。``デクニシ'' は外国の人名であるため、これを漢字かなに変換するのは困難であ る。これらのことから、実際の使用における変換精度は、ここで示 した値より高いと思われる。
正解 | 1位出力 | |
A | しようと | 使用と |
B | デクニシ | 出荷市区 |
C | 国務省内 | 国務相ない |
D | 音楽好きの | 音がく好きの |
E | 反核集会は | 反核収かいは |
F | きわみに | きわ味に |