次へ: パーサによる照合
上へ: パターンの形態素解析
戻る: 展開例3
目次
パターンの形態素解析データを作成する手順を次に示す.
- 展開前のパターンとその原文をパーサで照合
- 照合結果を元に,各パターン要素に原文の形態素情報を割り当て
- 変数・様相関数については,それぞれの要素に適切な形態素情報をプログラムで生成
- 全てのパターン要素に形態素情報が割り当てられていれば,手順8へ進む
- 選択要素内のパターン要素(例:(.kako|をした))は,事前に作成したデータベースを参照して形態素情報を生成
- 補完要素内のパターン要素は,全て「/は(7530)」の形式であることが分かっているので,格助詞「は」に適切な形態素情報を割り当て.
- それでも形態素情報が割り当てられないパターン要素が存在する場合は,形態素解析データ作成不能と判断
- パターン要素と形態素情報の対応を元に,展開後パターン全ての形態素解析データを生成
- 文節境界情報フラグを,展開後のパターン中の離散記号により調整
手順3では,変数・様相関数に対して,自動的に形態素情報を作成する.
これは,これらのパターン要素には,定義から形態素情報を作成できる為である.
しかし,後述する文節境界情報フラグについては,パターンだけでは文節境界の判断が難しい為,
前の手順で割り当てられた原文の形態素情報を参照する.
手順5では,選択要素内の形態素情報が割り当てられていないパターン要素に対して,
データベースを参照することで形態素情報を割り当てる.
このデータベースは,256個の「サ変型名詞変数+する」型の要素の形態素解析結果を収録している.
収録されている「+する」型の要素は,既に構築されている24万件の文型パターン辞書で用いられている
選択要素内のパターン要素から抽出されている.
これは,この型の要素の多くは,パターン構築時の作業により追加された為,原文に存在しないからである.
なお,データベースは付録に示す.
手順9で調整を行う文節境界フラグは,文節の境界を示す情報である.
離散記号は,パターン作成時に文節間にのみ挿入されている.
そこで,離散記号の前後は文節の境となる事を利用して,フラグの調整を行う.
次に作成するパターン形態素解析データの例を示す.
- 原文の形態素解析データ
城を取り巻いて攻撃した。
1. /城(1100,{NI:449,NK:57,KR:4703u00})
2. +を(7430)
3. /取り巻い(2314,取り巻く,{NY:20,KR:4104a07})
4. +て(7630)
5. /攻撃し(2433,攻撃する,{NI:1762,NI:1522,NY:23,KR:3800a01})
6. +た(7216)
7. +。([P]0110)
8. /nil
- 展開後パターンの形態素解析データ
/y/tcfkN2を/cfV3て/cfV4.kako。
1. //y(FFFB)
2. //tcfk(FFFB)
3. /N2(FFF0,N,{NI:449})
4. +を(7430)
5. //cf(FFFB)
6. /V3(FFF0,V,{NY:2002,KR:6411,KR:4104})
7. +て(7630)
8. //cf(FFFB)
9. /V4(FFF0,V,{NY:2302,NY:2303,KR:3900,KR:3800})
10. +.kako(FFFA)
11. +。([P]0110)
12. /nil
Keichiro Katayama
平成17年5月20日