next up previous contents
次へ: 直接選出型文節処理のアルゴリズム 上へ: 文節候補生成アルゴリズム 戻る: 文節候補生成アルゴリズム   目次

音節選出型文節処理のアルゴリズム

音節選出型文節処理方式における入出力データの流れを図4.4に示す。

図 4.4: 音節選出型文節処理方式における入出力データ
\begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/figure5.4.ps,width=70mm}}\end{center}\end{figure}

  1. 音節列候補の生成アルゴリズム

    音節マトリックスから音節文節候補を生成する方法として、trigram モデルを 用いる。マルコフモデルによる候補絞り込みは、正しい文節候補は間違った候 補よりもマルコフ連鎖値の積が大きいと仮定して、文節候補を評価する。例え ば図4.4の例で、「ワラクニケイザイ ノ」の文節候補の尤度は

    $p($__ワラクニケイザイノ__$)$ $ = p($ワ/__ $)\times p($ ラ/_ワ$)\times p($ク/ワラ$)\times p($ニ/ラク $)\times p($ケ/クニ$)\times p($イ/ニケ$)\times p($ザ/ケイ$)\times p($イ/イザ $)\times p($ノ/ザイ$)\times p($_/イノ$)\times p($_/ノ$)$.

    (ただし_は空白を意味。)で与えられる。これを他の音節の組み合わ せを含む165,888通りのすべてについて計算し、上位何候補かに絞り込 む。この場合は第1位の候補として「ワガクニケイザイノ」が得られ、第2位 としては「ワガクニケイザイニモ」が得られる。一般に、音節マトリックス を対象に直接この計算を行うのは計算量の点で困難であるが、Veterbiのアル ゴリズムを使用することにより、少ない計算量で容易に評価することができ る。

  2. 単語認定アルゴリズム

    前項で得られた複数の音節列の上位8位までの音節列に対して、単語辞書を 参照し、当てはまる単語候補を出力する。 このプロセスはワードプロセッサのかな漢字変換と基本的に同じである。こ こでは分割数最小法[59]を基本とするが、正解候補のもれを防止するするため、 最小分割数+1までの単語候補を生成する。

  3. 文節候補認定アルゴリズム

    最後に上記で得られた単語候補に対して漢字かなのtrigramを使 用して曖昧性を絞り込む。なお実験では同時に品詞のtrigramを使 用して、品詞における文節候補の絞り込みの効果も研究した。



Jin'ichi Murakami 平成13年1月5日