next up previous
次へ: 考察 上へ: main1 戻る: はじめに

用例に基づく形態素解析

本稿で提案する用例に基づく形態素解析は以下のような流れになる。

  1. 形態素解析済みのデータの準備

    形態素解析が既にされたデータを大量に準備する。一般に、このデー タは人間によるクリーニングがされているため、形態素解析の誤り は少ない。このデータを従来の形態素解析における単語辞書として 扱う。

  2. 形態素解析

    1.で用意された形態素解析済みのデータを利用して、新しい日本 語の形態素解析をおこなう。このプログラムは、従来の形態素解析 と同様、文節数最小法もしくは最長一致法を利用する。

以下に日本語の名詞連続複合語の形態素解析の例をあげる。 辞書には、表1のような形態素解析済みのデータを辞書と して登録する。



表 1: 形態素解析済み辞書
1 日本{一般名詞}電信{一般名詞}電話{一般名詞}
  株式{一般名詞}会社{一般名詞}
2 東京{一般名詞}海上{一般名詞}火災{一般名詞}
3 安田{一般名詞}海上{一般名詞}火災{一般名詞}
4 総務{一般名詞}部{接尾語}
5 秘書{一般名詞}部{接尾語}

次に、新しい名詞連続複合語
「日本電信電話株式会社総務部」
を形態素解析することを考える。

最長一致法を用いて、表1を辞書として、表2の形態素解析結果が得られる。



表 2: 形態素解析結果
1 日本{一般名詞}電信{一般名詞}電話{一般名詞}
  株式{一般名詞}会社{一般名詞}
2 総務{一般名詞}課{接尾語}


ここでは、名詞連続複合語の形態素解析の場合について 述べたが、一般的な日本語の形態素解析にも使用できる。




平成15年9月30日