next up previous contents
次へ: 本研究の目的 上へ: 序論 戻る: 序論   目次

研究の背景

日本文音声入力においては、音声の持つ物理的特性に着目した音声認識装置 の限界を克服するため、日本語の文法や意味を用いた自然言語処理を併用す ることの必要性が指摘されている[91]。特に大語彙を対象と する音声には発音の個人差や曖昧さの他に、同音異義語なども多数含まれる ため、その認識においては音声の物理的特性が完全に生かされたとしても、 なお絞り切れない曖昧さが残り、元の文を推定するには、言語解析や意味理 解の技術が必要と考えられる。この場合の言語処理の方法として、多くの言 語モデルがあるが、大きく分類してルールベースの言語モデルと確率ベース の言語モデルがある。

ルールベースの言語モデルとして、ネットワーク文法や文脈自由文法、 unification文法などがあげられる。これらの言語モデルの特徴として、意 味情報を直接適用して文節を生成する点があげられる。しかし、実際には単 語の代わりに単語の文法的カテゴリーや意味的カテゴリーが使用されるため、 絞り込みの精度はこれらのカテゴリーの分解能に依存する。したがって複数 の単語候補が同一のカテゴリーに属するような語彙の認識では、文節候 補を絞り込むのは困難である[86]。また人間がルールを記述する ため、文法を書く負荷が大きい。したがって文法のメインテナンスも困難で ある。そして、詳細なルールを書くことが困難であるため、これらの言語モ デルでは非文を生成しやすい傾向がある。

確率ベースの言語モデルとして単語の$N$-gramや確率付きネットワーク文法 、確率付き文脈自由文法などがあげられる。単語の$N$-gramは、非常に簡単 なモデルで、例えばbigramは、直前の単語に対して現在の単語が接続する確 率である。またtrigramは、2つ前の単語と直前の単語に対して現在の単語 が接続する確率である。言語モデルを$N$-gramのモデルとして扱った研究は 古く、シャノン[70]に始まると思われる。彼は、言語を$N$-gram のモデルとして扱い、エントロピを測定した。その後、IBMの研究者たちは [7]は$N$-gramモデルを音声認識の言語モデルとして使用し有効性を確かめた。 現在$N$-gramモデルは英語の文音声認識に使用する言語モデルの主流になっ ている。しかし、日本語において音声認識に$N$-gramを使用し有効性を確か めた論文は少ない [45]。

この原因の1つに、日本語の大量のテキストデータベースの欠如にあると思 われる。trigramの値を精度よく求めるためには、基本的には大量のテキス トデータ量が必要である。英語ではデータベースの重要性が認識されていて 古くからBrown corpusやAP corpusなどがある。これらのデータベースは形 態素解析などの研究のために使用されている。しかし日本語ではコンピュー タに読み込める形式で利用できる大量のデータベースが最近まで存在してい なかった。そのため、確率的な言語モデルの研究は最近まであまり報告され ていなった。

また、従来の音声認識システムの多くは丁寧に発声された音声を入力対象に している。しかし、人間同士の対話には「あのー」「えーと」などの間投詞 や、言い淀みや言い誤りおよび言い直しや倒置などが頻繁に出現する。この ような音声でも認識できる、いわゆる自由発話の音声認識が、今後の重要な 研究課題になると思われる。



Jin'ichi Murakami 平成13年1月5日