next up previous contents
次へ: 存在性情報の抽出タスク 上へ: 基本技術 戻る: 固有表現抽出   目次

機械学習とチャンキング問題

機械学習には教師あり学習,教師なし学習,半教師あり学習などがある. 教師あり機械学習は事前に与えられたデータを学習し, 未知のデータを与えたときに学習データを元に分類する方法である. SVMは教師あり機械学習を用いる識別手法のひとつである.

チャンキング(任意句の同定)問題に学習手法として用いている[4]. この問題を解くにはタグ付きコーパスが必要となる. 本研究ではIOB2タグをコーパスに用いる. IOB2タグはチャンク(任意句)の状態を表すタグである. Iはチャンクの内部,Oはチャンクの外部,Bはチャンクの開始地点を表す. 日本語の文法はSVOで構成されているので,文末から文頭の順に推定を行う. よって推定を行う際は,IOB2タグをIOE2タグに変換する. IOE2タグのIはチャンクの内部,Oはチャンクの外部,Eはチャンクの終了地点を表す.



平成26年3月5日