next up previous contents
次へ: (4)既存の選択記号から, 新たに作成した選択記号に均一化した単語レベル文型パターン辞書(新作成) 上へ: 調査対象 戻る: (2)現在の単語レベル文型パターン辞書(オリジナル)   目次

(3)既存の選択記号で最も表現要素数が長い選択記号に均一化した単語レベル文型パターン辞書(最長均一化)

現在の単語レベル文型パターン辞書には, 例3の選択記号を付与された日本語パター ンがあるにも関わらず, 例4のような同じ表現要素を持ちながら表現要素数が少ない 選択記号が付与されている日本語パターンがある. また, 選択記号となるべき表 現要素が選択記号になっておらず字面で残っている日本語パターンもある. そこ で該当する要素に既存の選択記号で最も表現要素数の長い選択記号を日本語 パターン付与した単語レベル文型パターン辞書を作成する.

<例3>
 

(会う|あう|逢う)

<例4>
 

(会う|あう|逢う|遇う|遭う|會う|遘う)

作成手順を以下に示す.

手順1
日本語パターンを形態素解析し品詞番号を付与する. なお, 選択記号 内の他の単語は原文内の単語と同じ品詞番号を付与する.

<例>
 

$/ytkTIME1$$/cf$あい(変わり|かわり|変り)ませず$!$お付き合いの$/k$ほど$</tkN2$$>/tcfk$お願い申し上げます。

$RSNYTK3$;$TIME1$;も@7530@;$SNCF4$;あい@6100@;(変わり@2183@|かわり@2183@|変り@2183@);ませ@7232@;ず@7193@;$!$;お@6100@;付き合い@1400@;の@7410@;$RSNK5$;ほど@1100@;$<RSNTK6$;$N2$;は@7530@$>$;


$RSNTCFK7$;お願い@1220@;申し上げ@2413@;ます@7236@;。@0110@

ここで'';''は形態素の境界を示し, ``@....@''は品詞番号を意味す る. また, ``/''は, 文型パターンパーサの仕様に合わせ''$RSN$'' とし, 変数と同様に番号を付与した.

手順2
手順1で作成した日本語パターンから選択記号を抽出する.

抽出した選択記号の例(一部)
 

$(AJ1;.sugiru;.kako$^$rentai|AJ1$^ $sugiru;.kako^rentai)$

$(ND1;$ $@7430@;RSNCF10;$$@2433@|V1)\vert$

(あげ@2413@|挙げ@2413@|擧げ@2413@|舉げ@2413@)

(憚る@2387@|はばかる@2387@)

・・・など

手順3
$N1$$V2$などの変数はどの変数にでも受理できるように変数番 号を$N*$, $V*$のように汎化する.

<例>
 

( $V3.reru.teiru^rentai$ $ND3をされている$)

( $V*.reru.teiru^rentai$$ND*$をされている)

手順4
抽出した選択記号から, 単語を選択記号に, あるいは選択記号を 同じ表現要素を持ちながらさらに表現要素数が多い選択記号に置き換える辞 書を作成する.

ただし, $V*$$ND*$に関してはさまざまに受理され置き換わってしまう可 能性があるため辞書から削除した.

<例>
 

(変わり@2183@|かわり@2183@|変り@2183@) → (変わり@2183@|かわり@2183@|変り@2183@)

(変わり@2183@|かわり@2183@) → (変わり@2183@|かわり@2183@|変り@2183@)

;変わり@2183@; → (変わり@2183@|かわり@2183@|変り@2183@)

;かわり@2183@; → (変わり@2183@|かわり@2183@|変り@2183@)

;変り@2183@; → (変わり@2183@|かわり@2183@|変り@2183@)

手順5
辞書に従い, 選択記号を置き換える.
この単語レベル文型パターン辞書において,選択記号の述べ数は 190,239個であり, 種類数は変数を汎化したため2,669種類に減少し た. 種類の詳細は付録2に示す.



平成18年3月24日