next up previous contents
次へ: まとめ 上へ: ATRの国際会議のデータベース 戻る: ATRの国際会議のデータベース   目次


ATRの国際会議における単語trigramの値の収束率

現在ATRでは、各種言語現象を調査するために対話文を中心とする言語デー タベースの作成を進めている[10]。本来、対話音声の収録は話者に録 音していることを気づかれずに録音することが好ましいが、通信の守秘義務な どの問題の他に、話題が次々に移行するため会話の語彙が膨大な数になるとい う問題も生じる。このため、事前に話題のトピックやバックグラウンドを決め、 会議の流れの不自然さを損なわないように打合せを行った後に収録をしている [74]。現在、発話内容で5種類、収録環境で2種類、話者で2種 類、発話様式で2種類の日本語で種々の組合せを含むデータベースを収集して ある[10]。

単語のtrigramの値の信頼性を研究するために、このATRの国際会議の申し込みに おけるテキストデータベースにおいて、データ量に対するエントロピーと``カバー 率''の変化を調査した。ATRの国際会議のデータベースは、約7000種 類の単語でできている。発話の例文を表3.1に示す。


表 3.1: 文例
・[あっ、あえーっと]そちら第1回の通訳電話国際会議の事務局でしょうか。
・はいそうです。
・[えーっとちょっと]その会議のことでねあのー登録のことでお伺いしたいんですが。
・はい。
・どうぞ。
・[えーっと]今手元にあの登録用紙があるんですけれども[えーっと]その中でちょっとあの
・クレジットカードをね[あのー]クレジットカードの名前となんかナンバーを書くところ
・があるんですがはいそうです。[えーっと]それをちょっとクレジットカードを持ってい
・ない者がいるんですけれどもその場合はどうなんでしょうか。
・はい。

調査はカバー率60%、カバー率80%、カバー率100%、およびエン トロピーの合計4つの値で行なった。この結果を図  3.9 に示す。

図 3.9: ATRの国際会議のデータベースにおける、学習データの入力データに対するエントロピーおよびカバー率の変化
\begin{figure}\begin{center}
\fbox{\epsfile{file=FIGURE/figure2.7.ps,width=130mm}}\end{center}\end{figure}

図 3.9 から、データ量が増加するに伴いエントロピーは増加 していて、安定な値になっていないことがわかる。また語彙の 58.8% (3486/5933)、単語 trigramの種類の数の 77.9% (60847/78138) は1回 しか出現していなかった。このデータをX線CT所見と比較すると単語のエント ロピーの絶対値では差が少ないことがわかる。したがって、固有名詞など1 度しか出現しない単語が多過ぎることを意味していて、データ収集に問題が あると考えられる。



Jin'ichi Murakami 平成13年1月5日