次へ: 自由発話の言語的な特徴の考察
上へ: 自由発話の言語的な特徴
戻る: 自由発話における冗長語の種類と出現確率
言い誤りであるかどうかの判定は、文法的、意味的な前後関係を考
慮して決定する必要がある。言い淀みは、音声を注意深く聞いて決定
する必要がある。自由発話において通常観測される、言い誤りや言
い淀みなど言語現象は、テキストデータ中では、話者が言い直さな
いかぎり、検出するのは困難である。これらの問題のため、本論文
では言い直しの出現頻度のみを調査した。調査は200文に対して行
なった。この言い直しの分類と出現頻度を、図7に示す。また例文を以下に示しめす。例文中においてアンダー
ラインは言い直しを意味する。
ただし、この言い直しの分類には問題が多い。例えば、単語の意味
の違いは明確でないため『意味の異なる単語の挿入』と『丁寧な単
語での言い直し』の区別の差は明確でない。また、日本語では単語
の概念が曖昧なため、『同じ単語の繰り返し』と『単語の言い直し』
の区別の差も明確でない。したがって、ここで示した分類はかなり
主観的である。
図 7:
自由発話における言い直しの出現頻度
|
------------------------------
自由発話における言い直しの例文
- 無意味な単語の挿入 25%
- 日本語から英語へというように
、と、翻訳を、す、
あ、通訳をするコンピュータを開発している
(「通訳」と言お
うとして「翻訳」と言い間違いをし、これに気がついて直そうとし
て言い淀んでいる。)
- えーっと、あのー、こ、会議期間中は特に
あのー、バスを運行しておりまして、土曜ダイヤでバスが、あのー、
運行するようになっております。
(原因が不明、「こ」は、無意味
な音の発声であるため、冗長語と判断される可能性がある。)
- 最終的な、えーっと、草稿、原、えーとスピー
チ原稿を提出していただきたいと思います。
(「原稿」と言おうとして「草稿」と言い間違いをし、これに気が
ついて直そうとして言い淀んでいる。)
- パンフレットの方を拝、見ていただきましたら
(「拝見」と言おうとして敬語の間違いをして言い淀んでいる。)
- 意味の異なる単語の挿入 18%
- あの、そのようなことが、あの、そちらの方にお教え、お知らせ
できないんです。
(「知らせる」を「教える」に言い間違えている。)
- タクシーに、あのー、京都駅からお乗りになれば、大体35
分か40分位で着きますし、旅費、料金としては、大
体1500円位になります。
(「旅費」と「料金」は、意味的にはほとんど同じであるため、『丁
寧な言葉への言い直し』とも分類できる。)
- この件に関しましては、えーっと、大阪まで、あのー、
新幹線で来られますと、飛行機で来られますと45分間
位で参ります。
(「飛行機」を「新幹線」と言い間違えている。文全体の挿入の誤り。)
- 同じ単語の繰り返し 14%
- えーっと、その、その中でちょっと、あの、クレジット
カードをね書類の方は、
(「その中」を1つの単語と捉えたならば『単語の言い直し』とも解
釈できる。)
- 会議の内容なんかをかいつまんでお話、お
話し下さればと思うんですが。
- 単語の言い直し 13%
- あの、この、クレ、クレジットカードというのは本来外国人のゲストの方
- 従いまして、2、あ、2時間半位で東京から国際
会議の行なわれる場所まで行けるわけですから、
- 助詞の誤り 10%
- まだ割引を私の方で、あのー、することに、はできないんですが
- はい、それで、はそうですね。
- コンピュータによる同時通訳を、に関する、あのー
会議を開こうということです。
- オーバーヘッドープロジェクタと2インチ×2インチのス
ライドを、と使えるようになっています。
- 丁寧な単語での言い直し (名詞) 13%
- えーっと、郵送でVLDB86の、えーと、会議
事務局、国際会議事務局宛にお送りいただきたいと思います。
(意味的には『 同じ単語の繰り返し』ともみなせる。)
- それで、えーっと、受領の通知は、受け取りの通知
は12月31日までに出させていただきます。
- これは現在の為替でいきますと、レートでいきま
すと、大体16,000円程になりますので
- その次に日本の総理大臣中曽根首相から挨拶を、
スピーチをすることになってます。
- 丁寧な単語での言い直し (動詞) 7%
- はがきででも来られない、参加できないという風に、御通知いただければ、
- ええ、外国人の申し込みの方は、現在までで13名で
あり、ございます
- そうですか、という、といいますと、それは英語でしなければいけないわけでしょうか。
------------------------------
Jin'ichi Murakami
平成13年10月5日