現在ATRでは、各種言語現象を調査するために対話文を中心とす る言語データベースの作成を進めているが[6]、この目的 のために録音された音声は、同時に、音声データベースとして利用 できる。本来は、自由発話音声の収録は、話者に録音していること を気づかれずに録音することが好ましいが、通信の守秘義務などの 問題の他にも、話題が次々に移行するため、使われる単語は膨大な 種類になるという問題も発生する。このため、会話にある程度の制 約を入れた模擬会話で収録することが現実的である。ATRでは、役 割を与えられた2名の話者により行なわれた会話音声を録音収録し、 後に文字化して言語データベースを作成している [7]。現在、発話内容で5種類、収録環境で2種類、 話者で2種類、発話様式で2種類の variety を含むデータベース を収集中である[6]。
今回の調査には、このデータベースのなかから、電話による国際会 議の問い合わせに関する音声データを使用した。これの収録条件を 表1に示す。音声データは、遮音室でア ナウンサーが発声したもので、ドアの開閉音などの日常雑音や話者 の舌打ちの音などは含まれていない。また両話者は、完全に分離さ れて録音されているため、音声区間の重畳はない。この意味で、こ の音声データは、自由発話音声としてはかなり clean な音声であ ると言ってよい。調査は個人差も調べるため、アナウンサー2名に ついて行なった。ただし、両者の発話内容は異なっている。
発声者 | アナウンサー2名(通称MTK,FKN) |
収録環境 | 遮音室 |
発話内容 | 国際会議の申し込みに関する参加者と |
事務局の対話 | |
「トピック」(質問項目と、その背景 | |
に関する情報)や「バックグラウン | |
ド」(会話の前提になる背景)を詳 | |
細に設定して対話したもの。 | |
入力系 | マイクロフォン、DAT録音 |
データ量 | 26対話437文(MTK) |
26対話569文(FKN) | |
音素数 | 約 8919音素(MTK) |
約14867音素(FKN) | |
発話様式 | 自由発話 |