言語データ

次へ: Ergodic HMMを用いた確率つきネットワーク文法の自動獲得の実験 上へ: 単語を入力単位とした日本文文法の自動獲得 戻る: HMMによる言語のモデル化目次

言語データ

HMMの学習に用いる言語データベースとして、ADD(ATR対話データベース) の中から``国際会議に関する問い合わせ''の8000文を用いた。文の例を表 9.4 に示す。

表 9.4 のように、このデータベースはあらかじめ単語（形態素）に区切られており、同じ表記でも読み方の異なる場合や、品詞、活用形、活用型の異なる場合は、別単語として扱っている（表 9.5 参照）。また、日本語において、単語の概念はあいまいであるが、単語の単位はデータベースの形態素解析[10]に依存した。

**表 9.4:** 文の例
はいもしもし
えーっとそちら第１回の通訳電話国際会議の事務局でしょうか
はいそうです
えーっとちょっとその会議のことでね
はいどうぞ
えーっと今手元にあの登録用紙があるんですけれども
えーっとその中でちょっとあのクレジットカードをね
あのークレジットカードの名前となんかナンバーを書くところがあるんですが
はいそうです
えーっとそれをちょっとクレジットカードを持っていない者がいるんですけれども
その場合はどうなんでしょうか

**表 9.5:** 同一表記の単語の扱い
車を持ってない人もいる。	助動詞連体形
がまんするほかない。	形容詞終止形
これしかないのですか。	形容詞連体形

実験に使用したデータベース中の単語の種類は全部で6418種類である。品詞は25種類に分類され、活用を持つものは、さらに活用形および活用型の違いで分類している。これらを表 9.6 および表 9.7 および表 9.8 に示す。

**表 9.6:** 品詞分類
形容詞	副詞	副助詞	接頭語	間投詞
普通名詞	連体詞	接続助詞	補助動詞	準体助詞
サ変名詞	接続詞	格助詞	固有名詞	並立助詞
代名詞	感動詞	終助詞	形容名詞	係助詞
数詞	助動詞	接尾語	本動詞	慣用句

**表 9.7:** 活用形分類
変則型	五段	上一	下一	サ変	カ変	特殊
文語四段	文語上二	文語下二	文語ラ変	文語ナ変	形容詞ク変

**表 9.8:** 活用型分類
未然	連用	終止	連体	仮定	命令	語幹

また、これらの単語には数字のラベルが付いており、このデータでは0から 6417までの数字が付けられている。

実験では、データベースの8000文を奇数番目の文のsetと偶数番目の文のsetとに分け、さらにそれぞれ先頭から1000文のset、先頭から2000文のset、4000文のsetに分けている。奇数番目のset3種類をそれぞれ odd1000, odd2000, odd4000、偶数番目のsetをeven1000, even2000, even4000と名づけ使用した。それぞれのデータ(set)における品詞の出現頻度などは、表 9.9 および付録の表 A.1 ～表 A.8 に示す。

これらの表から、以下のことが示される。

データベース中の文は、主に、普通名詞、格助詞、本動詞、助動詞で構成される。
一文章の平均単語数が13前後である（表 9.9 ）。しかし、実際の分布は単語数の少ない方に偏っている。
「はい。」「もしもし。」の様な感動詞1単語のみからなる文や「わかりました。」「そうですか。」などの受け答えの会話が多く存在する。
間投詞（あのー、えーなど）や感動詞（もしもし、はいなど）が多く含まれている。

これらの特徴は、電話対話という特殊な環境を反映した言語データを意味していると考えている。

**表 9.9:** 構成単語数
set	odd1000	odd2000	odd4000	even1000	even2000	even40000
文数	1000	2000	4000	1000	2000	4000
単語数	13299	20730	57354	13824	21114	56826
文平均単語数	13.30	10.37	14.34	13.82	10.56	14.21
最大単語数	99	99	128	81	81	118

Jin'ichi Murakami 平成13年1月5日