next up previous contents
次へ: パーサによる照合 上へ: パターンの形態素解析 戻る: 展開例3   目次

形態素解析データの作成

パターンの形態素解析データを作成する手順を次に示す.

  1. 展開前のパターンとその原文をパーサで照合
  2. 照合結果を元に,各パターン要素に原文の形態素情報を割り当て
  3. 変数・様相関数については,それぞれの要素に適切な形態素情報をプログラムで生成
  4. 全てのパターン要素に形態素情報が割り当てられていれば,手順8へ進む
  5. 選択要素内のパターン要素(例:($V$.kako|$ND$をした))は,事前に作成したデータベースを参照して形態素情報を生成
  6. 補完要素内のパターン要素は,全て「$N$/は(7530)」の形式であることが分かっているので,格助詞「は」に適切な形態素情報を割り当て.
  7. それでも形態素情報が割り当てられないパターン要素が存在する場合は,形態素解析データ作成不能と判断
  8. パターン要素と形態素情報の対応を元に,展開後パターン全ての形態素解析データを生成
  9. 文節境界情報フラグを,展開後のパターン中の離散記号により調整

手順3では,変数・様相関数に対して,自動的に形態素情報を作成する. これは,これらのパターン要素には,定義から形態素情報を作成できる為である. しかし,後述する文節境界情報フラグについては,パターンだけでは文節境界の判断が難しい為, 前の手順で割り当てられた原文の形態素情報を参照する.

手順5では,選択要素内の形態素情報が割り当てられていないパターン要素に対して, データベースを参照することで形態素情報を割り当てる.

このデータベースは,256個の「サ変型名詞変数$ND$+する」型の要素の形態素解析結果を収録している. 収録されている「$ND$+する」型の要素は,既に構築されている24万件の文型パターン辞書で用いられている 選択要素内のパターン要素から抽出されている. これは,この型の要素の多くは,パターン構築時の作業により追加された為,原文に存在しないからである. なお,データベースは付録に示す.

手順9で調整を行う文節境界フラグは,文節の境界を示す情報である. 離散記号は,パターン作成時に文節間にのみ挿入されている. そこで,離散記号の前後は文節の境となる事を利用して,フラグの調整を行う.

次に作成するパターン形態素解析データの例を示す.



Keichiro Katayama 平成17年5月20日