音節選出型文節処理方式における入出力データの流れを図4.4に示す。
音節マトリックスから音節文節候補を生成する方法として、trigram モデルを 用いる。マルコフモデルによる候補絞り込みは、正しい文節候補は間違った候 補よりもマルコフ連鎖値の積が大きいと仮定して、文節候補を評価する。例え ば図4.4の例で、「ワラクニケイザイ ノ」の文節候補の尤度は
__ワラクニケイザイノ__ ワ/__ ラ/_ワク/ワラニ/ラク ケ/クニイ/ニケザ/ケイイ/イザ ノ/ザイ_/イノ_/ノ.
(ただし_は空白を意味。)で与えられる。これを他の音節の組み合わ せを含む165,888通りのすべてについて計算し、上位何候補かに絞り込 む。この場合は第1位の候補として「ワガクニケイザイノ」が得られ、第2位 としては「ワガクニケイザイニモ」が得られる。一般に、音節マトリックス を対象に直接この計算を行うのは計算量の点で困難であるが、Veterbiのアル ゴリズムを使用することにより、少ない計算量で容易に評価することができ る。
前項で得られた複数の音節列の上位8位までの音節列に対して、単語辞書を 参照し、当てはまる単語候補を出力する。 このプロセスはワードプロセッサのかな漢字変換と基本的に同じである。こ こでは分割数最小法[59]を基本とするが、正解候補のもれを防止するするため、 最小分割数+1までの単語候補を生成する。
最後に上記で得られた単語候補に対して漢字かなのtrigramを使 用して曖昧性を絞り込む。なお実験では同時に品詞のtrigramを使 用して、品詞における文節候補の絞り込みの効果も研究した。