next up previous contents
次へ: Ergodic HMMを用いた確率つきネットワーク文法の自動獲得の実験 上へ: 単語を入力単位とした日本文文法の自動獲得 戻る: HMMによる言語のモデル化   目次


言語データ

HMMの学習に用いる言語データベースとして、ADD(ATR対話データベース) の中から``国際会議に関する問い合わせ''の8000文を用いた。文の例を 表 9.4 に示す。

表 9.4 のように、このデータベースはあらかじめ単語(形態 素)に区切られており、同じ表記でも読み方の異なる場合や、品詞、活用形、 活用型の異なる場合は、別単語として扱っている(表  9.5 参照)。また、日本語において、単語の概念はあ いまいであるが、単語の単位はデータベースの形態素解析[10]に依 存した。


表 9.4: 文の例
はい もしもし
えーっと そちら 第 1 回 の 通訳 電話 国際 会議 の 事務 局 で しょ う か
はい そう です
えーっと ちょっと その 会議 の こと でね
はい どうぞ
えーっと 今 手元 に あの 登録 用紙 が ある ん です けれども
えーっと その 中 で ちょっと あの クレジットカード を ね
あのー クレジットカード の 名前 と なん か ナンバー を 書く ところ が ある ん です が
はい そう です
えーっと それ を ちょっと クレジットカード を 持っ て い な い 者 が いる ん です けれども
その 場合 は どう な ん でしょ う か



表 9.5: 同一表記の単語の扱い
車を持って ない 人もいる。 助動詞連体形
がまんするほか ない 形容詞終止形
これしか ない のですか。 形容詞連体形


実験に使用したデータベース中の単語の種類は全部で6418種類である。品 詞は25種類に分類され、活用を持つものは、さらに活用形および活用型の 違いで分類している。これらを表 9.6 および表  9.7 および表 9.8 に示す。


表 9.6: 品詞分類
形容詞 副詞 副助詞 接頭語 間投詞
普通名詞 連体詞 接続助詞 補助動詞 準体助詞
サ変名詞 接続詞 格助詞 固有名詞 並立助詞
代名詞 感動詞 終助詞 形容名詞 係助詞
数詞 助動詞 接尾語 本動詞 慣用句


表 9.7: 活用形分類
変則型 五段 上一 下一 サ変 カ変 特殊
文語四段 文語上二 文語下二 文語ラ変 文語ナ変 形容詞ク変  


表 9.8: 活用型分類
未然 連用 終止 連体 仮定 命令 語幹

また、これらの単語には数字のラベルが付いており、このデータでは0から 6417までの数字が付けられている。

実験では、データベースの8000文を奇数番目の文のsetと偶数番目の文のsetと に分け、さらにそれぞれ先頭から1000文のset、先頭から2000文のset、4000文 のsetに分けている。奇数番目のset3種類をそれぞれ odd1000, odd2000, odd4000、偶数番目のsetをeven1000, even2000, even4000と名づけ使用した。 それぞれのデータ(set)における品詞の出現頻度などは、表  9.9 および付録の 表 A.1  〜表  A.8 に示す。

これらの表から、以下のことが示される。

  1. データベース中の文は、主に、普通名詞、格助詞、本動詞、助動詞で構成される。

  2. 一文章の平均単語数が13前後である(表  9.9 )。しかし、実際の分布は単語数の少ない方 に偏っている。

  3. 「はい。」「もしもし。」の様な感動詞1単語のみからなる文や 「わかりました。」「そうですか。」などの受け答えの会話が多く存在する。

  4. 間投詞(あのー、えー など)や感動詞(もしもし、はい など)が 多く含まれている。

これらの特徴は、電話対話という特殊な環境を反映した言語データを意味して いると考えている。


表 9.9: 構成単語数
set odd1000 odd2000 odd4000 even1000 even2000 even40000
文数 1000 2000 4000 1000 2000 4000
単語数 13299 20730 57354 13824 21114 56826
文平均単語数 13.30 10.37 14.34 13.82 10.56 14.21
最大単語数 99 99 128 81 81 118


next up previous contents
次へ: Ergodic HMMを用いた確率つきネットワーク文法の自動獲得の実験 上へ: 単語を入力単位とした日本文文法の自動獲得 戻る: HMMによる言語のモデル化   目次
Jin'ichi Murakami 平成13年1月5日