next up previous contents
Next: データベース Up: 単文抽出とデータベース作成 Previous: 単文の条件   Contents

単文抽出手順

  1. CREST対訳例文100万件[3]の日本語文を形態素解析する.形態素解 析には,ALTーJAWS[4]を使用する.本語例文を形態素解析にかけた結果の一部を表1に示す.
  2. 形態素解析結果の品詞コードを用いて日本語文が,単文の条件(2.1節参 照)にあてはまるか判定する.表1の品詞コード'2413'は単語 「編み上げ」が動詞であることを表しており,単文の条件1にあてはまる ので日本語例文は単文である.他の条件についても同様にして,形態素解析 の結果を利用して単文を抽出する.
  3. 抽出した単文が述部を一つ持つかCLの定義を用いて確認する.CLとは,節を 表す変数で,CLの定義は全部で230種類用意する.以下にCLの定義の一部を 示す.詳細は付録の1に掲載する.


Jin'ichi Murakami 2006-03-11