next up previous
次へ: 考察 上へ: かな漢字変換の実験 戻る: 漢字かなのエントロピー

かな漢字変換の変換精度

マルコフモデルを利用したかな漢字変換の変換精度を調べるため に実験を行なった。実験は漢字かなの1重マルコフモデルおよび漢 字かなの2重マルコフモデルの2つのモデルについて調べた。そし て、3.1に示したマルコフモデルの連鎖確率に対するオープンデー タとして1982年1月1日の日経新聞の記事を、クローズドデータとし て1982年1年5日の記事を選んだ。入力は文節単位のひらがなとし、 50文節を実験した。使用した単語辞書の語彙数は約6万語である。 また、計算中、連鎖確率が0のとき、すべての漢字かなまじり文が0 になる可能性があるため、値を微小値exp(-1000)に置き換えた。

漢字かなの1重マルコフモデルによるかな漢字変換の実験結果を表 2に、2重マルコフモデルの実験結果を表3に示す。





表 2: 1重マルコフモデルによるかな漢字変換の実験結果
累積正解率 (%) 1位 2位 4位 8位
オープンデータ 60 72 86 94
クローズドデータ 88 98 100 100





表 3: 2重マルコフモデルによるかな漢字変換の実験結果
累積正解率 (%) 1位 2位 4位 8位
オープンデータ 86 88 90 92
クローズドデータ 98 100 100 100

表2と3から示されるように、かな漢字変換に漢字かなの2重マル コフモデルを使用したとき1重マルコフモデルと比較して変換精度は 飛躍的に高くなり、オープンデータで86%、クローズデータでは 98%の正解率が得られた。

漢字かなの1重マルコフモデルを使用したときに、1位に正解が出 力されなかった文節の出力結果を、表4および表5に示す。表4は クローズドデータで、表5はオープンデータの実験結果である。こ の結果をみると、クローズドデータの誤りは表記が異なっているに しかすぎないと考えられるため、実質的にはクローズドデータの1 位正解率は100%と考えられる。また、オープンデータの誤りのな かでA,Dは意味的に正しい文節であると考えられる。``デクニシ'' は外国の人名であるため、これを漢字かなに変換するのは困難であ る。これらのことから、実際の使用における変換精度は、ここで示 した値より高いと思われる。





表 4: クローズドデータにおける誤り
  正解 1位出力
A ときだけに 時だけに



表 5: オープンデータにおける誤り
  正解 1位出力
A しようと 使用と
B デクニシ 出荷市区
C 国務省内 国務相ない
D 音楽好きの 音がく好きの
E 反核集会は 反核収かいは
F きわみに きわ味に




next up previous
次へ: 考察 上へ: かな漢字変換の実験 戻る: 漢字かなのエントロピー
平成15年9月30日