next up previous contents
次へ: 両アルゴリズムの違いについて 上へ: 文節候補生成アルゴリズム 戻る: 音節選出型文節処理のアルゴリズム   目次

直接選出型文節処理のアルゴリズム

直接選出型文節処理方式における入出力データの流れを図4.5に示す。

図 4.5: 直接選出型文節処理方式における入出力データ
\begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/figure5.5.ps,width=70mm}}\end{center}\end{figure}

  1. 単語認定アルゴリズム

    文節単位の音節マトリックスに以下の方法で直接単語辞書を適用し、可能な 単語候補をすべて抽出する。まず音節マトリックスの音節候補をつなぎ合わ せた音節列の中に文節を一単語として解釈できる単語候補があるかどうかを単 語辞書を使って調べる。図4.5の例では、 9音節を一単語と考え、各音節を組み合わせた単語の有無を調べる。すなわち、 $ 4 \times 6 \times 4 \times 4 \times 6 \times 6 \times 1 \times 6
\times 2 = 27648 $ 通りの音節の組み合わせに対して、9音節の全てが一致 するような単語が辞書に存在するか否かを調べ、存在すればすべて抽出する。 もしそのような単語が存在しなければ音節マトリックスを二つに分割する。図 4.6の例ではそのような単語候補はないので、長さを1音節短くして、下記(実線) のようにマトリックスを二つに分割する。すなわち8音節長と1音節の2つに分割する。

    図 4.6: 入力データの一例
    \begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/figure5.5.5.ps,width=60mm}}\end{center}\end{figure}

    第1ブロック、第2ブロックの双方に対して前と同様の方法で単語辞書引き を行い、辞書上の単語の有無を調べる。何れかのブロックに対して単語が存在 しないときは分割が不適切と考え、第1、第2のブロックの分割の仕方を変え る。すなわち長さをさらに1音節短くし、7音節長と2音節長に分割する(破線)。

    分割された二つのブロックの双方に一つ以上の単語候補が存在するような分 割の仕方が無いときは、全体を三つのブロックに分割する。全てのブロックに 対して一つ以上の単語候補が存在するようになるまで、この手順を繰り返し、 辞書上で解釈可能な最小の分割数を求める。

    また、このようにして求めた分割数最小の分割法の全てに対して、ブロック 毎に辞書上解釈可能な全ての単語候補を出力する。

  2. 文節候補認定アルゴリズム

    前項で抽出された単語候補を組み合わせて得られる漢字かな混じりの文節単語 列に対して、同様の漢字かなのtrigramを適用し、順位付けを行う。 なお実験では同時に音節および品詞のtrigramを用いて、それぞれの 情報の効果を研究した。



Jin'ichi Murakami 平成13年1月5日