次へ: 考察 上へ: main1 戻る: はじめに

用例に基づく形態素解析

本稿で提案する用例に基づく形態素解析は以下のような流れになる。

形態素解析済みのデータの準備
形態素解析が既にされたデータを大量に準備する。一般に、このデータは人間によるクリーニングがされているため、形態素解析の誤りは少ない。このデータを従来の形態素解析における単語辞書として扱う。
形態素解析
1.で用意された形態素解析済みのデータを利用して、新しい日本語の形態素解析をおこなう。このプログラムは、従来の形態素解析と同様、文節数最小法もしくは最長一致法を利用する。

以下に日本語の名詞連続複合語の形態素解析の例をあげる。辞書には、表1のような形態素解析済みのデータを辞書として登録する。

次に、新しい名詞連続複合語
「日本電信電話株式会社総務部」
を形態素解析することを考える。

最長一致法を用いて、表1を辞書として、表2の形態素解析結果が得られる。

ここでは、名詞連続複合語の形態素解析の場合について述べたが、一般的な日本語の形態素解析にも使用できる。

平成15年9月30日