next up previous
次へ: NLP_sentaku2 上へ: NLP_sentaku2 戻る: NLP_sentaku2

startsection subsubsection3@0.20.1*(3)既存の選択記号でもっとも表現要素数が長い選択記号に均一化したパターン辞書(最長均一化) 現在の文型パターン辞書には, 例3の選択記号を付与されたパター ンがあるにも関わらず, 例4のような同じ表現要素を持ちながら表現要素数が少ない 選択記号が付与されているパターンがある. また, 選択記号となるべき表現要素が選 択記号になっておらず字面で残っているパターンもある. そこで該当する要 素に既存の選択記号でもっとも表現要素数の長い選択記号を付与したパターン辞書を 作成する.

<例3>
(会う|あう|逢う)

<例4>
(会う|あう|逢う|遇う|遭う|會う|遘う)

作成手順を以下に示す.

手順1
文型パターンを形態素解析し品詞番号を付与する. なお, 選択記号 内の他の単語は原文内の単語と同じ品詞番号を付与する.

手順2
手順1で作成したパターンから選択記号を抽出する.

手順3
$N1$$V2$などの変数はどの変数にでも受理できるように変数番号を$N*$, $V*$のように汎化する.

手順4
抽出した選択記号から, 単語を選択記号に, あるいは選択記号を 同じ表現要素を持ちながらさらに表現要素数が多い選択記号に置き換える辞 書を作成する.

ただし, $V*$$ND*$に関してはさまざまに受理され置き換わってしまう可 能性があるため辞書から削除した.

手順5
辞書に従い, 選択記号を置き換える.
このパターン辞書において,選択記号の述べ数は190239個であり, 種 類数は変数を汎化したため2669種類に減少した.



root 平成18年3月24日