4W-11 用例に基づく形態素解析の検討* 1 はじめに 形態素解析は、従来から対話、翻訳、校成などの目的のために、自然言語処理研究 の一つの分野として研究が続けられている。形態素解析は、漢字かな文を単語に分け て品詞ラベルを付与することであるが、通常、大量の候補が出力されるため、言語情 報を用いてこれらの曖昧さを削除している。この言語情報として、単語を構文的意味 的なカテゴリに分類してカテゴリー間の接続ルールや係受けルールなどが利用されて いる[1]。しかし、実際の日本語では単語の境界が明確でないことや単語の多品詞性 や曖昧な係受けなどの問題があるため、精密なルールの作成は容易でない。 そこで、本稿では、これらの辞書を利用する代わりに、既に形態素解析された結果を 利用する、用例に基づく形態素解析を'考案し、実験を行った。この結果について述 べる。 2 用例に基づく形態素解析 形態素解析には、多くの目的がある。 本論文では、企業名のキーワード検索を目的とした形態素解析を考えた。企業名を検 索するとき、キーワードを使用して検索すると、検索精度が向上する。この検索方法 として1文字単位にindexを作成して1文字単位で照合する方法がある。しかし単語ご とに検索したほうが、検索精度は向上する。特にPB自動電話番号案内のように、あ行 が1のボタンに縮退させて検索するような場合、単語境界がある方が検索精度は、大 幅に向上する。 図1に、通常の形態素解析のアルゴリズムを示す。 本稿で提案する用例に基づく形態素解析は図中の単語辞書の代わりに形態素解析が 既にされたデータを利用する方法である。 例を表1にあげる。 ここでは、名詞連続複合語の形態素解析の場合について述べたが、一般的な日本語の 形態素解析にも使用できる。 3 実験条件 1. 形態素解析データ 実験は、電話帳から抜き出した企業名に対して行った。全企業数約440万件 のうちランダムに1万件を抜き出し、 これをtestデータとした。また、残りのデータを辞書およびtrigramの連鎖確立値の 計算に使用した。 2. 単語抽出部 単語抽出部のアルゴリズムとして、全ての候補を出力する全探索が基本である が、コンピュ―タの負荷を考慮してコス ト最長一致法や文節数最小法などが良く使用されている。 本論文では、最長一致法と全探索で実験を行った。 3. 単語選択部 単語抽出部で出力された複数の候補を選択するために、通常は、単語を構文的 意味的なカテゴリに分類してカテゴリ ー間の接続ルールや係受けルールなどが利用されている。また、最近は統計的な手法 としてN-gramが利用されている 。本論文では、漢字仮名のtrigramを用いて尤度が最大の候補を選出する方法を用いた。 4 実験結果 実験結果を表2に示す。 表中、形態素解析可能数とは、単語抽出部が全ての文を形態素解析できた数である 。この実験から、単語抽出部において形態素解析ができない例があることがわかった 。この原因を解析した結果 「店」 「商店 などの接尾語がないことが原因である場合が多かった。そこで、接尾語を辞書に単 語として登録して実験を行った。この結果を表3に示す。 上記の実験から、単語抽出部において出力された単語候補のなかで、正解がない場 合が多いことがわかった。そこで、形態素解析された全ての単語を辞書として登録し て実験を行った。この結果を表4に示す。 この実験結果から、最長一致を用いた場合67%、全探索法を用いた場合61%の形態 素解析精度が得られることが示された。 5 考察 本実験から、用例ベースの形態素解析の効果は見られなかった。しかし、より大規模 なDBになる場合、辞書作成の容易性や安定度を考慮した場合、有利になると考えられる。 6 まとめ 本論文では、既に形態素解析されたデータを用いて形態素解析をおこなう、用例ベー スの形態素解析法について述べた。そしてこの実験を行い、精度を求めた。 参考文献 [1] 長尾 真 ,“日本語情報処理,”社団法人電子通信学会,pp63-64 (1984) [2] ,“漢字かなのtrigramをもちいたかな漢字変換方法”,情報第43回全大,7H-3,pp. 3.287-288,(1991-10).