next up previous contents
次へ: アルゴリズム全体の適用例 上へ: アルゴリズムの概略 戻る: 文節の削除(#2)   目次

同一係り受け文節ペアの発見(#3)

ここでは、#3のアルゴリズムの説明を例を用いて行う。 #1により得られた一致文節から、入力文と係り受け関係の一致する文節ペア を発見する。以下の入力文とDB文が#1により得られたものとし、これらに に対して#3を適用するが、 ここで、#2の処理は終了したものとし、係り受け関係を 構成しない文節は削除したものとする。

例文1.

\includegraphics[width=12cm,keepaspectratio]{ex_sent.eps}

例文中のアルファベットA〜Dは文節の種類を表す。同一のアルファベットで あれば、同一の文節とみなしこれを一致文節とする。 各一致文節に先頭から文節番号と係り受けペア番号(数),[数]を 設定する。その後、入力文側の係り受けペアに対して、 DB文側の係り受けペアの対応を示す文節対応 マトリックス図6を作成する。図中の◯は対応する 文節が存在することを示す。日本文の係り受けの特徴を考慮し、 入力文と対応する文節ペアとの関係が崩れないように、文節対応マトリックスを 右下方向へと進み、対応する文節の存在を調べていくことで、一致ペア数が 最大となる文節の組み合わせを発見する。

ここで、同一の文節が複数あり、係り受け関係が同じで文節番号だけが 異なるものが存在する場合に、構造的に矛盾した一致ペアが選択される という問題が生じることがあるが、これは使用される文節番号の照合に より解決することができる。この問題については、 次に扱う例文2で触れることにする。

図 6: 文節対応マトリックス
\includegraphics[width=12cm,keepaspectratio]{matrix2.eps}

この例の文節対応マトリックス(図6)の場合、 文節間の対応関係を崩さず最も多く一致ペアを 選択できるパスは、1→3→4あるいは2→3→4の2通り存在する。 ここで、2→3→4の組み合わせの場合を見てみると図7のような 係り受け関係の一致が得られ、このDB文に対して一致ペア数3が決定される。

図 7: 一致ペア数3の係り受けペア
\includegraphics[width=12cm,keepaspectratio]{ex234.eps}

次に例文1で述べた問題について、以下の入力文とDB文を例に説明する。 なお、例文1と同様に、#2の処理は終了したものとする。 文節番号と係り受けペア番号の設定を同様に行う。

例文2.

\includegraphics[scale=1.5,keepaspectratio]{ex_ababcc.eps}

この係り受け関係から、文節対応マトリックスを作成する(図8)。 マトリックスより、最も多く一致ペアを選択できるパスは、 1→4→5→6の一致ペア数4の組み合わせである。 ここで、この一致ペアにおける入力文とDB文の対応を見てみると 図9のようになる。図9において入力文の文節 \framebox[0.5cm]{B} \framebox[0.5cm]{C} \framebox[0.5cm]{C} の部分の 係り受け関係(太線部分)とDB文の係り受け関係に違いが生じている。 この問題を解決するために、選択された係り受け関係に使用されている 文節の文節番号による照合を行う。 対応する係り受け関係の間に違いが生じる原因は、入力文の文節に 対してDB文の文節が1対1に対応していないためである。 そのため、選択された文節に対して以下のような条件を設けることにする。

条件

[1]入力側で同じ文節番号のところは、対応するDB側でも同じ数字に なっている必要がある

[2]DB側で同じ文節番号のところは、対応する入力側でも同じ数字に なっている必要がある
この条件を満たすものが係り受け関係に矛盾が生じる ことなく決定された一致ペアである。 この条件を設定し文節間の対応関係を崩さないような選択を行うことで 問題を解決することができる。

図 8: 例文2の文節対応マトリックス
\includegraphics[width=13cm,keepaspectratio]{matrix_2.eps}

図 9: 構造的に矛盾した対応関係
\includegraphics[width=13cm,keepaspectratio]{ex1456.eps}



平成14年5月1日