自然言語処理研究の考え方
 
           自然言語処理研究部
             池 原   悟 
 
                  目  次               
1.まえがき                              1
2.自然言語と哲学                           2
 2.1 精神的産物としての言語                    2
   (1)哲学と科学の違い                      2
   (2)言語と哲学                         2
 2.2 科学的認識と言語                       4
   (1)科学的認識                         4
   (2)形而上学的認識                       4
 2.3 従来の言語処理における言語観                 7
3.人間の言語能力と自然言語処理                   14
 3.1 人間の言語能力の構成モデル                 14
   (1)思考(思惟)する能力                   15
   (2)表現する能力                       16
   (3)理解する能力                       17
 3.2 自然言語処理の目標                     17
   (1)一般的目標                        17
   (2)新通信形態の実現                     19
4.言語の過程的構造と言語処理                    22
 4.1 言語の過程的構造                      22
  4.1.1 生成変形文法と言語過程説               22
  4.1.2 「対象」のあり方                   24
   (1)実 体                          25
   (2)属 性                          25
   (3)関 係                          25
  4.1.3 「認識」のあり方                   25
   (1)個別性と普遍性                      26
   (2)具体性と抽象性                      27
   (3)主観性と客観性                      27
   (4)空間的視点と時間的視点                  28
   (5)観念的立場                        28
  4.1.4 「表現」のあり方                   28
   (1)客体的表現のことば                    31
   (2)主体的表現のことば                    31
 4.2 言語能力と言語処理                     32
  4.2.1 理解能力と言語解析処理                32
  4.2.2 表現能力と言語生成処理                37
  4.2.3 思考能力と知識処理                  40
   (1)判断の能力                        40
   (2)予測の能力                        42
5.自然言語処理の新らしい視点                    43
 5.1 論理学と言語学                       43
   (1)一般科学と個別科学                    43
   (2)言語の特殊性                       43
 5.2 認識と言語処理                       46
   (1)対象と認識の分離                     46
   (2)話者認識の表現モデル                   46
 5.3 主体と客体の扱い                      48
   (1)主体的表現と客体的表現の分離               48
   (2)客体的表現に現れる主体の扱い               49
 5.4 統語構造のもつ意味の扱い                  50
 5.5 多義との戦い                        51
   (1)多義と知識                        51
   (2)多義解決の視点                      52
 5.6 人間と計算機の分担                     53
6.新らしい視点から見た言語処理方式の例               57
 6.1 日英翻訳における多段翻訳方式の例              57
  6.1.1 従来の翻訳方式の問題点                57
  6.1.2 多段翻訳方式の提案                  58
   (1)主体的表現/客体的表現分離融合方式            59
   (2)客体的表現の構造の抽象化と多段変換方式          59
  6.1.3 多段翻訳方式の構成                  61
  6.1.4 多段翻訳方式の特徴                  62
   (1)日本文等価的変換の必要性                 63
   (2)解析と変換の融合                     63
   (3)多義解消効果                       63
   (4)変換規則の相互独立性とチューンアップの容易性       64
 6.2 日本語会話処理における意味理解方式の例           64
  6.2.1 意味理解の定義と処理のプロセス            64
   (1)理解することの意味                    64
   (2)意味解析と意味理解                    66
  6.2.2 知識のモデル化                    66
   (1)概念から知識まで                     66
   (2)知識のタイプ                       69
  6.2.3 言語から見た世界モデル                70
   (1)世界モデルの構成要素                   70
   (2)世界知識の分類                      71
   (3)世界の表現モデル                     71
  6.2.4 会話処理のプロセス                  74
   (1)理解に必要な知識                     74
   (2)会話処理のプロセス                    74
   (3)世界モデルを用いた理解のプロセス             75
 7.あとがき                            78
1.まえがき
 人工知能への期待が高まるにつれ、自然言語処理研究への期待も高まっており、とりわけ機械翻訳の分野において、かなりの数の商用システムが開発されて来た。いよいよ自然言語処理研究は実験室から出て、その成果が一般社会に浸透するかに見えた。しかし、現実の自然言語の壁は厚く、期待はずれの失望感も出始めている。このため、自然言語処理研究者の間では新らしい視点と方法論を打ち立てることの重要性が呼ばれるようになっている。
 これに対して、我々の研究所では従来の実験室レベルでの研究の方法論がモデル論優先型で現実の言語現象から遊離する傾向にあることを批判的に捉え、研究開始以来、独自の立場から研究を推進して来た。その結果、いくつかの分野において利用者の要求に応え得る製品開発がで来るところまで技術レベルを向上させる事ができた。従来の実験室的研究で主張されて来た自然言語の捉え方の基本的な問題点とそれに対する我々の考え方については既に3編の小論においておおよそのところを示した。即ち文献〔1〕では現在の計算機言語学のもつ基本的な問題点とそれから生じる種々の問題点を指適し、言語現象を捉えるときには話者の認識に目をむけ、それを通して言語を理解する事の重要性を延べた。 文献〔2〕では人間の認識構造の発展形態とその中における言語の成立過程を論じ、言語の本質がどこにあるかを示した。また文献〔3〕では、日本語と英語を比較する立場から、言語表現と話者の認識の結びつきについて延べた。これらの資料はいずれも自然言語の捉え方を中心に述べたものである。そこで、本資料では、これらの資料で述べた考え方に立って実際の研究を如何に進めていくべきかについて考える。
 従来の研究の限界の打破は、従来の方法の限界を知る事から始まる。そこで、本資料では従来の研究が形而上学的限界をもつこと、そしてそれを超える認識が言語の過程的構造に目を向けることであることを示し、人間の言語能力の過程的構造を探究することから、計算機による言語処理の方法を発見していくことの必要性を述べる。その上で、実際の自然言語処理研究の考え方と方法について論じる。
 〈文献1〉経過資料第12330 号、
      「科学的な言語理論の構築に向けて」
 〈文献2〉経過資料第12599 号、
      「知識と言語に関する認識論」
 〈文献3〉経過資料第12886 号
      「日本語と英語の認識構造」
2.自然言語と哲学
 
2.1 精神的産物としての言語
 
(1)哲学と科学の違い
 物事のあり方を追求し、明らかにする学問として、哲学と科学がある。哲学が思考によって物事のあり方を明らかにしようとするのに対して、科学は仮説とその検証手段と言う方法論をもつことにより、実践的に物事のあり方を明らかにしようとしている。科学的方法論の未発達であった昔においては、物事のあり方は哲学的考察に頼る他はなかった。例えばギリシヤ時代においては、哲学の主な対象は自然であり、自然は思考によって明らかにすべきものであった。しかし、科学的方法論が発達するにつれて、自然は哲学の対象で無くなり、自然科学がそれに代った(図1(a))。
 ところで、自然に対置される社会についてみれば自然科学と同様、社会科学なるものの発達が見られるが、まだまだ哲学的議論がつきない状況である。これは自然科学が物理的実在として疑いのない自然を研究の対象としているのに対して、社会科学が実在としては疑いは無いが、人間の思考によってそのあり方が影響を受ける社会を研究の対象としていることによる。すなわち、社会はその中に身を置く人にとっては自己の意志を超えて存在する自然であるが、それを動かす人にとっては精神的産物としての性格を有するからである(図1(b))。
 
(2)言語と哲学
 言語研究の思想的混乱の背景には、言語が人間の精神的産物であることが大きく影響している。言語は特定の地域に自然発生的に成立した社会的規範の一つである言語規範によって成り立っている。言語規範は人間の精神的活動の産物である点が、人間の精神を超えてその存在が認められる自然法則と異なる。このことが、生まれながら人間の持つ言語能力としてラングの存在を認めるソシュールの言語哲学や、深層心理として言語に深層構造を仮定したチョムスキーの二元論的言語観を生み出している。言語を哲学的立場から思考によって明らかにする立場からは、その他数多くの考え方が存在する。
 言語が人間の精神的産物であっても、人間の精神は外界の反映として成立すること、またそれを研究する人にとっては、広い意味で自然の一部として存在する事を考えれば、科学の立場から言語のあり方を追求することの重要性が分る。従来の計算機言語学の研究が本当に科学的方法論に立脚して進められているか否か、自然科学の方法論に立ち戻って考える事が必要である。
 
2.2 科学的認識と言語
 世界の存在の捉え方には大きく分けて2つの捉え方がある。一つは科学的認識であり、もう一つは形而上学的認識である。世界の一部である自然言語も全く同様、2つの捉え方が存在する(図2)。
 
(1)科学的認識
 科学的認識の原則は、対立相互浸透の原則、量質転化の原則、二重否定の原則の3つの原則にまとめられる(図3)。これらの原則から自然に対する認識として、
   「自然は過程の複合体であり、矛盾の複合体である」
とする科学的世界観が導かれる。原因があって結果があり、その結果は次の原因となると言う原因結果の同時性と万物変化の原則、種々の矛盾が調和され、調和が次の矛盾を生むことにより、矛盾を原動力として発展するとする対立物統一の原則などの存在を通して自然を見る見方である。自然科学では自然のこのような過程的構造の中に存在する法則性を発見し、その法則を通して現象を再現させ、自然をコントロールすることを可能にする。法則発見の意味は人間の経験を超えた現象を予知し、人間に役立つ方法で出現させる事に意味がある。経験に基き説明されたり、再現できる現象を扱うには何ら科学は必要ではない。
 自然言語も同様である。このような科学的認識で自然言語を捉えたものに言語過程説がある。言語は「対象」、「認識」、「表現」の過程的複合体であるとする時枝学説である。これは、言語では対象は話者の認識を通して表現に関係づけられること、また表現への関係づけに対して自然発生的で社会的な規範である言語規範(広義の文法)が媒介することの2点に着目した点に特徴があり、読者はこの規範を手がかりに、表現から話者の認識を見、それを通して対象のあり方を追体験することが可能となるとするものである。
 
(2)形而上学的認識
 形而上学的認識によれば、世界は矛盾が無く静的で完成したものとして捉えられる。完成した世界では一切の矛盾はなく、従って変化することは無い。この認識に従えば結果だけが常に議論される。現在、自然科学においてはこのような世界観に基く研究は殆ど見られなくなっているが、この説にも一面の真理がある、原因と結果の組み合さった世界のある瞬間で切った一断面に閉じた解釈を与える方法としての意味がある。しかし形而上学的認識と科学的認識の差を真理の部分性と相対性から捉えることは適切ではない。真理の部分性と相対性から説明される自然観としては地動説と天動説の例がある。天動説は旧来の農耕生活から見て真理であっても、天体力学から見れば真理でない。言ってみれば、形而上学的に見た世界観の一つが天動説であり、科学的に見た世界観の一つが地動説である。これらの世界観は真理の相対性の原則に従って、より上位の真理へと発展するが、形而上学的認識と科学的認識は物事の考え方を言ったものであり、相対性から説明されるものではない。前者が世界は完成している(変化しない)と見るのに対して、後者は「世界は変化する」と言う原則以外はすべてのものが変化すると捉えるのであり、捉えた結果に対する議論ではなく、捉える方法についての議論となっているからである。
 以上のような物事の捉え方から見れば、自然言語を形而上学的に捉える事に賛成する科学者は少ないと思われる。しかし、言語処理の世界では形而上学的立場から説明された言語観が主流を占めているのが現状である。
 
2.3 従来の言語処理における言語観
 自然言語の研究は自然科学の研究と異り、人間の精神的産物である自然言語が研究対象であるため、人間の精神活動の捉え方の違いによって、種々の言語の説明が行われてきた(図4)。例えば、ソシュールは人間の精神活動の中に社会的で有限の言語規範を内容とする先天的な観念実体ラングがあると説明した。すなわちソシュールによれば、言語規範は先天的にすべての人間の頭の中に存在するものであり、生後獲得されるのは言語規範の運用能力「パロール」である、と言うことになる。この考えに立てば、英国で生まれれば生まれながらにして英語の言語規範をもち、日本に生まれれば生まれながらにして日本語の言語規範をもったことになる。欧米語しか頭になかったと言われるソシュールの誤謬は、外界とは独立に生来的な人間の精神活動としての言語を仮定したところにある。また、我々が学んで来た文法では言語がその結果である表現だけから説明される。対象の構造が表現にどう反映するか、話者の見方や考え方がどう表現のどんな構造に対応づけられるかと言った原因を反省した上で表現を説明するのではない。結果としての表現だけを現象として捉え、主語のあとに動詞が来るとか、活用するものが用言であるとか言った形式主義と、主語となれるのが名詞だとか、名詞につくのが助詞だと言った機能主義での説明が行なわれる。原因から辿れば一通りに説明できることでも、結果を見ただけでは説明が困難なことが多数発生する。自然科学では種々な現象を説明するためその原因を調べ、原因と結果との間に流れる法則を発見しようとするが、学校文法では一言で説明できないところはいろんなつっかえ棒を用意して説明する。形式で説明出来なければ機能と組み合せて説明する。説明がつかないときは主語になれるのが名詞であると言っておきながら、主語になれない名詞もあると言って「もの」や「こと」を形式名詞とするなど、種々な例外を設けるため、学んでいる人は訳が分らなくなって文法嫌いの学生が増える。科学的な方法で研究された結果と思っているものの中にも、このような形而上学的説明の域を出ないものがある。
 言語表現はその構造や形式を見ると同一であっても内容は異ることが殆どである。この同形式内容の言語現象はソシュールや学校文法の考えでは説明することができない。そこでチョムスキーは言語表現の奥にもっと抽象的な性質をもつ構造を仮定し、それを意味とすべきだと主張した。万人に共通の思考結果を深層構造とした。ソシュールのラングとの違いはそれを言語規範と言っていない点にある。チョムスキーの考えは話者の心理に迫ろうとした点は評価できるが、話者の心理への対象の反映論を欠いているため、話者の心理を説明することが出来ず、従って説明のできない深層構造を観念的に仮定しただけにとどまっている。
 言語の形式は対象のあり方と、それに対する話者の認識のあり方が反映したものであるため、形式と内容は相互に支え合う構造をもっている。従って、表現と離れた別のところに意味構造を仮定するつ必要はない。表現に結びつけられた対象と話者の認識の関係を追求することにより、同形式異内容の現象は説明される。チョムスキーの論理はその後、種々の困難に直面し、チョムスキーはその毎に自説をくるくると変えた(図5)が、仮想的深層構造の矛盾は解決されないままである。チョムスキーは当初、標準論理において深層構造を統語構造のみで説明しようとし、深層構造から表層構造への変換の過程において意味を変えないことを主張した。しかし、「深層構造が一致するからと言って肯定の内容をもつ深層構造から否定の内容の表層構造は導けないのではないか」、「否定と肯定などが深層構造で異るとするなら、表層構造と深層構造の差は無くなってしまい、わざわざ深層構造を仮定する意味は無い」など、カッツ等の批判をあびた。形式と内容を切り離せないことを考えれば当然の批判である。そこでチョムスキーは自説を改め、改訂拡大標準理論に至って、変形による意味の変化をも認めるに至った。そのため、深層にあるとした意味が、今度は表層にも別の意味があることになり、何の為の深層構造から分らなくなっている。初期の考えを形式と内容の二元論と言うなら、その後の考えは内容の二元語とも言うべきである。
 チョムスキーは言語処理の科学を目指し、正しい文と誤った文の判断基準として非文の判断基準を設けた(図6)。すなわち、母国語読者が考えて何らかの点でおかしな文として、超現実的な内容やくどすぎる表現、嘘をついた表現などを例にあげ、これを非文とした。この判断基準は画期的なものと評価を受け、これが科学的基準の設定だとさわがれたが、この点でも大きな逸脱を犯している。科学的に考えるなら話者の直観は判断基準になるものではなく、むしろ分析や反省の対象と言わなければならない。研究の対象とすべき事柄を判断の基準とすることは正反対のことである。超現実的な内容やくどすぎる表現など、それらが使われる文脈が存在するものを非文と呼ぶ訳には行かない。ここで非文を定義するなら、話者の対象に対する認識がそれを表現する過程で言語規範に正しく媒介されない文と言うことができる。
 最近の翻訳研究の考え方を見るとチョムスキーの試行錯誤と同様の試行錯誤を辿っている跡がみられる。従来、機械翻訳では「言語間で内容は共通である」とする立場から言語に共通した意味構造を仮定した翻訳方式が志向されてきた。これはチョムスキーの深層構造に対応するものである。しかし、実際に言語依存のない意味構造を設計する事は出来ず、機械翻訳研究者は言語依存の中間言語を設け、中間言語間の変換を試みるようになっている。言語の過程的構造を考えるなら、言語に共通するのは「対象」のみであり、それに対する「認識」の仕方は個人で異ると同様、言語でも異なる事が分る。従って、言語に共通する意味として人の精神の中に深層構造を仮定することは誤りであり、深層構造があるとするなら、言語間でそれも異ると考えるべきである。深層構造の言語独立性を主張する立場からは、深層構造から話者の精神的活動の部分をとり除き、「深層構造=対象のあり方」と説明を変えるむきがある。このようにすると確かに深層構造は言語に共通することになるが、対象のあり方から直接表現が導かれる事になり、対象と表現の間に存在する話者の認識が無視されてしまう。話者の認識を通さずに対象を捉える事はそもそも困難であり、「対象=深層構造」として、表現を説明するような深層構造の設計は困難である。また、言語依存の中間言語をもつ翻訳方式はこれらの問題を克服する方法に見えるが、表現の意味が言語依存の中間言語にそっくり保存されると考えるのは間違っている。表現の意味は表現に結びつけられた話者の認識と対象のあり方であり、表現を変形すればこの関係は変る(図7)。即ち厳密に言えば意味を変えない変形はあり得ないことになる。翻訳はそもそも近似解を求める事であることを明確にした上で、表現の意味が中間言語の表現でどれだけ近似できるかを見定めて、中間言語を設計することが必要である。中間言語がもとの表現の意味をそのまま持っていると考えて変形操作を加えているのなら、チョムスキーの誤りを繰り返していることになる。従来の言語依存型中間言語方式をみると、対象のあり方を表現する仕方が言語で異る為、言語依存の中間言語を用いているに過ぎない。対象のあり方の把握の仕方は言語によって異ると同様、話者によっても異るのであり、話者の認識のあり方を無視して変形を加えてしまっては精度の良い翻訳の実現は困難と言えよう。
 
 以下、本検討では我々の自然言語処理研究の意義を明確にした上で、以上で述べた従来の言語観の問題点を超えた科学的言語観のあり方を考え、自然言語処理の方法論を探っていきたい。従来の日本語文法が欧米言語の輸入変形文法に傾いている中に(図8)、国学者の伝統を引きつぐ優れた考え方がある。日本の生んだ誇るべきこの文法の中に今後の問題を解く鍵があると考えられる。
 
3.人間の言語能力と自然言語処理
 
3.1 人間の言語能力の構成モデル
 人間が他の動物と区別される点は、人間が言語を発明し、それを駆使する点だと言われている。言語の発生は狩猟を中心とする集団生活の中で、時間の概念を発明したところを起源とするとされているが、「一点にあってかつ同時に一点に無い」と定義される運動の概念を、対象の動的属性として客体化し、表現する言語の動詞の認識も時間の概念抜きには得られないし、まして「世界は過程の複合体である」とする現代科学の世界認識も時間の概念抜きに考えることはできない。また、人間は自己と他者を区別して相対化すると同時に、自己を捉えるに当って主体的自己分裂を行い、自己を対象化して捉えたりするが、これらの認識の構造も言語にその枠組みを持つ、このように、言語は人間の人間としての活動を支えるものであり、人間の言語能力は人間を人間たらしめるものと言うことができる。
 このような人間の言語能力は図9のように3つの能力に分けて捉えることができる。以下、図9の各要素のもつ役割について述べる。
 
(1)思考(思惟)する能力
 人間が思惟を進めるとき概念と呼ばれる認識を用いる。概念には普遍的概念と特殊的概念があり、相対的な側面をもっている。事物はそれを他と区別することのできる個別的特徴をもっているが、同時に他の事物と共通した普遍性をも持っている。この普遍性の側面を抽象して取り上げるのが概念であるから、概念の本質は事物の普遍性を捉えたものと言うことができる。普遍的概念と特殊的概念の区別は概念の普遍性の程度を相対的に表現するものと言える。また、概念には対象としての普遍性がつらぬかれているところの事物の範囲を表わす外延と、対象としている普遍性に構造的に常に伴う事物の普遍的あり方を表わす内包がある。
 これらの概念および概念間の関係を操作するのが思考である。思考は大まかに言って、以下の「判断」と「予測」に大別さる(図10)。
 T)判断の思考
 概念は多くの場合、バラバラに切り離された形で作り出されるが、それを運用するに当っては、事物の立体的な構造に対応させて、認識の側から孤立した概念を相互に結びつけて構造化していく必要がある。この構造化の活動が「判断」と呼ばれる精神活動である。
 概念を作り出す事と概念を使うことは区別される。判断とは概念を使うことの側に分類される。
U)予測の思考
 事物の認識の構造化は判断から予測(推論)へと進む。予測には直観的なものもあるが、推論と言われる領域では、判断において個別の概念が結合されていたのと同様、個別の判断の結合が行なわれる。
 認識活動には受動的なものと能動的なものがあり、受動的な認識では対象の映像を感覚を通じて受け取るにとどまるが、能動的な認識では見えているものを手がかりにして目に見えないところにあるものを予想し、さらに予想を確実にしていくため、目に見えているものの中に見落としているものはないかを探すと同時に、現実への働きかけをも行っていく。このような意味で予測とは人間の能動的な認識活動の一つであると考えられる。受動的認識にとどまる場合は、物理的な目は見えるが、観念上の目、即ち心の目は閉じており、「あきめくら」と言うことになる。この意味で、予測の能力は人間の最も重要な能力の一つと言うことができる。
 
(2)表現する能力
 思考によって得られた認識を社会的に認められた言語規範に従って文字や音声などの物理信号に対応させる能力が「表現する能力」である。人間の頭脳に形成される認識は精神的なものであり、それ自体はそのまま人の頭脳の中に移し換えることができない。他の人に伝えるには、何らかの物理的な現象を介在させ相手の感性に訴える必要がある。そのために用いられる媒体が文字や音声である。話者の認識を文字や音声で表わすときは一定の約束が必要である。この約束がなければ聞き手は話者の考えを理解することができない。言語の約束は言語規範と言われるものであるが、それは社会集団の中に自然発生した約束であり、社会的なものである。話者が自己の認識を表現するにはこの言語規範に従って認識を文字や音声に対応づけることが必要であり、この約束に従わない対応づけは相手に理解できないものとなってしまう。
 概念が用いられて思考が行なわれ、認識が形成されるのは人間の精神の中であり、超感性(理性)の領域であるが、これを他者に伝えるには物質的な存在を介在させ、人間の感性を通じなければならないのは、表現のもつ矛盾の一つである(図11)。この矛盾は敵対し、排除されるべき矛盾ではなく、調和する矛盾であり、この矛盾を持ち込み、調和させる事によって始めて目的が達せられる。
 精神の物質的反映として文字や音声が用いられるところに言語の本質がある。この本質を考えると表現の意味の問題も明らかとなってくる。現在の言語処理では意味の本質が見失なわれている。かっては表現の構造に意味があるとする立場が主流であったが、最近は対象そのものを意味とする説が主流と見受けられる。物理的、物質的な対象は人間の外界に存在し、人間の精神に反映されるが、そのまま表現されるものではない。人間の精神の中に反映された認識が言語に表現されるのであり、精神的な存在である認識が表現と結びつけられるのであるから、認識と表現の結びつき、即ち両者の関係が表現の意味である。認識の役割を忘れたところに現在の言語処理研究の重大な誤りの一つがある。
 
(3)理解する能力
 理解する能力とは、言語範囲に定められるところに従って、言語表現と話者の認識を対応づけ、追体験を行う能力のことを言う。表現の内容の是非や、賛否はその後の思考の領域に属す事柄であり、ここでは、表現に対応づけられた認識をそのまま追体験するところまでの能力を言う。
 聞き手は文字や音声などの物質的な存在を目や耳と言った器官の感性を通して知覚し、話者の認識と類似の超感性的な認識を自己の精神の中に生み出し、それを表現との対応づけを行なう。
 
 以上の言語モデルにおいて重要な点は、感性領域と超感性領とが表現と理解のところで互いに切り換り、超感性的な認識、即ち精神上の産物が物質的な形と対応づけられて相手の精神的な産物を生み出すことである。言語の特質は話者と聞き手の精神活動の交流と言う点をふまえて始めて解明されるべきものであり、表現の構造と単語の機能を分析に矮小化された研究からは言語の本質に迫ることはできない。
 
3.2 自然言語処理の目標
 
(1)一般的研究目標
 自然言語処理の目的は「人間の言語能力を機械的に実現すること」である。すなわち、人間に代って言語表現の理解、思考、言語による表現を行なう機能を実現することが最終的な目標となる。ここではその中間段階の目標として、人間の言語理解や思考、表現を助ける手段を実現することも考えることにする(図12)。
 T)人間の言語能力の代行
 人間の言語能力は対象に対する認識と言語規範の関係に深く依存している。理解する能力は表現と話者の認識を言語規範を介して関係づけることであり、聞き手が自己の精神の中に表現に、対応する認識の像を作り上げることである。思考能力は、その認識から他の認識を生み出すことであり、表現能力は得られた認識を言語規範を媒介させて表現と対応づけ表出することである。従って、これらの言語能力を実現するには言語規範に関する知識とその運用の能力が必要であると共に、ある認識から他の認識を生み出す方法論が必要となる。
 この種の言語処理システムの例としては、コンサルティングシステムなどの質問対応システムがあるが、システム自体が認識の一形態としての知識データベースを持ち、質問があると質問の内容を理解し、知識と照し合せたり、知識を運用することによって新らしい認識を生成し、それを応答文として表現に対応づけていく。認識の運用が行なわれる点で、この種のシステムは知識処理と呼ばれる処理を含んでいる。言い換れば、知識処理も自然言語を媒介として知識を扱う以上は自然言語処理の立場からも研究を進めることが必要である。
U)人間の言語能力の支援
 人間の言語能力を代行する観点からは、理解、思考、表現の3要素をセットにして考える必要があるが、支援の観点からは、3要素を分けてそれぞれの支援を考えることができる。
 言語理解の支援と言う点では、言語表現の背後にある言語規範の知識を人間に教えるタイプのもので、単語の語彙や用例を出力する辞書引きシステムや、文法的約束を必要に応じて取り出すシステムなどが考えられる。表現能力の支援と言う点ではさらに、文の誤字や文法的な誤りをチェックするチェッカのような処理も考えられる。これらの処理はいずれも言語規範の運用に関する知識処理が中心となるのに対して、文字表現を音声表現の相互の変換などのメディア変換では言語規範だけでなく、表現の内容にも立ち入って来る面があり、話者の認識をも念頭に入れた解析が重要となる。いずれにしても、品質の高い強力な支援系を実現するには程度の差はあれ、話者の認識に迫る解析を考えていく必要があると考えられる。
 最後に思考の支援についてみれば、人の思考は超感性の領域で行なわれるものの、それを外側から助けるには、一たん感性的な文字や音声を介して言語の形式になった領域での操作を必要とする。この操作は知識を扱う操作であり、前項で述べた人間の言語能力の代行の一部と位置づけることができる。
 
(2)新通信形態の実現
 自然言語と通信の関係について考えてみよう。通常通信には情報媒体として自然言語や特定の約束に従った記号が用いられる。従来の通信では通信系は通信の内容に立ち入らず、言語も単なる媒体として扱われるのが普通である。すなわち、通信媒体となる音声や記号の意味は送信者と受信者間で定められた約束に従うものとし、通信系は情報の媒体として音声が用いられるかその他の符号が用いられるかを意識するものの、意味までは考えないとするのが普通である。
 これに対して、自然言語処理を伴う新らしい通信では、通信系が通信の媒体である言語の内容に立ち入った処理を行う。このタイプの通信としては図13、図14に示す2つの形態が考えられる。
T)人間と機械との通信
 機械が自然言語で表現された人間の要求や問題点を解釈して答えるため、人間と機械とが通信するもの。このような通信では自然言語で表わされた表現から言語規範を介して話者の意図や要求内容を理解することが必要である。しかし、人間の発話をみると、言語規範を行使するに際して、相手の一般知識や専門知識など、言語外の知識を前提としている事が多いため、発話の内容を理解してこれに応えるためには、計算機が言語知識以外の知識をもち、その知識と照し合せて話者の発話内容を追体験することが必要となる。一般に発話の基礎となる言語外知識は応大であり、網羅的に理解できるシステムを目指す事は禁止的であるため、この種の通信では通信の内容を大きく絞って、限定的な知識との組み合せを図る事が重要となる。
U)人間と人間との通信
 人間と人間との間の通信では、送信者のメッセージの到達する相手が人である。従って、通信者と受信者が同一の自然言語を用いる事のできない場合と、同一の自然言語を用いる場合でもその表現媒体として文字を使うか音声を使うかによって差のある場合は両者の差をうめるため、通信系が言語表現に立ち入って処理を行うことが必要となる。送信者と受信者の言語の違いを克服する通信が翻訳通信であり、送信者と受信者の言語表現の媒体の違いを克服する通信がいわゆるメディア変換通信である。
 これらの人対人の通信特殊性は送信者と受信者の間に共通の背景となる知識が仮定されるところにある。そのためこの型の通信を支える自然言語処理は人対計算機の通信に対比して以下の特殊性をもつことになる。すなわち、人対計算機の通信では計算機が人に代って言語表現の内容を理解し、送信者の要求に応えたり、送信者を誘導したりする事が必要であるのに対して、人対人の通信では最終的に理解し応答するのは人間であるので、計算機は必ずしも言語表現の内容を理解しなくても良い。用いられる言語や表現媒体の間の意味を変えない変換ができれば目的は達せられる。従来この種の変換において表現の意味を扱うことの重要性が言われているが、これはあくまで意味の扱いをも考えなければ意味を変えない変換の実現に困難な部分が存在することを主張するものである。従ってこの種の研究では総合的な意味モデルを研究することより、言語やメディアの変換において意味の扱いの必要な部分を明らかにすること、それぞれの変換に必要とする各意味処理の方法論を打ち立てることが重要な課題となる。
 
4.言語の過程的構造と言語処理
 
4.1 言語の過程的構造
 
4.1.1 生成変形文法と言語過程説
 生成変形文法が深層構造と称する意味構造を仮定し、深層構造から意味を変えない変形によって表層構造が導かれると説明したのに対して、言語過程説では言語は図15の通り対象、認識、表現の関係で説明される。すなわち、言語過程説によれば、実在であれ空想であれ、まず対象が存在する。この対象を見る人が存在し、その人の頭の中に認識が生まれる。この認識が表現に結びつけられる。誠に当然の事を言っているに過ぎないと思われるが、生成変形文法の考えとは根本的な違いがある。
 生成変形文法が話者の精神の中に深層構造を仮定し、これからスタートしているのに対して、言語過程説はこれを話者の認識として捉え、対象のあり方がそれに反映するものとした点が第1の違いである。話者の心理や精神が対象と無関係に存在するものではない。話者の精神と対象の間に反映論が存在することが見逃されてはならない。
 第2の違いは深層構造と表層構造、及び認識と表現の関係の説明である。生成変形文法の深層構造と表層構造を言語過程説の認識と表現にそれぞれ対応させて考えると、生成変形文法は両者の間に変形操作を持ち込み、深層構造に意味を変えない変形操作を加えることによって表層構造が得られるものと説明する。論理式の真偽値を変えない演算と同じように言語を説明しようとした点は科学的手法のように見えるが、ここに大きな考え違いがある。言語過程説によれば、認識はある約束を通じて表現に結びつけられる。認識が表現に変形されるのではない。ここで使用される約束が言語規範であり、自然発生的、社会的に成長した社会規範である点に言語の特徴がある。絵画や音楽も作者の認識が表現に結びつけられるが、この結びつきは感性的な方法で行なわれるのに対して、言語では社会的規範としての言語規範が存在し、これによって認識が表現に超感性的(理性的)な方法で結びつけられる。この約束が無かったら言語は成り立たないのであり、読者が話者の認識を追体験することができなくなる。
 第3の違いは「意味」の捉え方の違いである。生成変形文法では意味は深層構造にあると説明する。これに対して言語過程説では(時枝学説の意味論を修正した三浦文法による)意味とは表現に結びつけられた対象と認識の関係のことである。言葉は使われて始めて意味が生じる。即ち、言葉は使われて始めてその言葉と話者の認識との間に関係が生まれる。従って表現が存在すればその意味は存在し、表現が消されれば関係の消失と同時に意味が失われる。生成変形文法の深層構造は表現が無くても存在する。言語の意味が表現の有無に拘らず別のところに存在していると言う奇妙な説明となる。意味は表現と認識との関係であると見れば、意味を変えない変形は存在しないことが分る。話者の認識と表現の関係は話者の用いた表現との間に固定されたものであり、異なる表現との間に成立したものではない。表現の変形は一般に話者の認識との関係を変える。変形が行なえるのは特別の目的のため、表現から話者の意図や考えを抽出しようとする場合である。話者の認識の細部を捨て、大づかみに話者の意志や考えを表わす意味で変形が考えられるのであり、話者の意志や考えの近似精度を上げるための変形が追求されても、意味を変えない変形を仮定するのは逸脱である。
 以下、本章では言語過程説の立場から、対象、認識、表現のあり方の概要を述べる(図16参照)。
 
4.1.2 「対象」のあり方
 人間の精神の外側には数多くの対象が存在する。この対象を大きく分けると@実体、A属性、B関係の3つのカテゴリーに分けることができる(図17)。
 
(1)実体
 対象として第1に考えられるのは実体である。実体は実在するか否かを問わない。実在するものもあれば、実在しないものもある。物体として実在する山や川、花や鳥などもあれば、物体とは言えない概念や感覚もある。山や川も物体としてでなく概念的実体となることもある。
 実体は一般に構造をもつ、「学校」は組織としての実体であったり、「場所」としての実体であったりするが、組織としてみれば学校は教員、職員、学生からなり、学生は一年生、二年生等からなり、一年生はAクラス、Bクラスからなるなど種々の構造をもつのが実体である。
 
(2)属性
 実体にはそれぞれ種々の性質が付属している。「大きい」、「小さい」、「走る」、「飛ぶ」、など実体に付属する属性は起ったり消えたりする。これが認識の対象となる。属性は大きくみると静的なものと動的なものがある。運動し変化する属性としては、「登る」、「下る」、「流れる」、などの属性があり、静止し、固定していて変化しない属性としては、「美しい」、「大きい」、「高い」、などの属性がある。但し、静止し、固定していると言っても相対的なものであり、捉え方にも依存するが、実体には動的属性の他に、静的な属性も付随する。
 
(3)関係
 実体と実体、属性と属性、実体と属性の間には種々の関係が存在する。「上下関係」、「親子関係」、「取引き関係」、「因果関係」など、これらの関係は何ら感覚的なものをもっていないが、実体と属性に加えて認識の対象となるものである。
 
 以上3種の対象を述べたが、話者の認識対象としては、もう一つの対象として自分自身が存在する。話者自身は外界に3種の対象をみるが、同時にふり返って自分自身を対象として見ることもできる。このとき対象化された自分は実体として種々な属性をもち、他の実体とも種々の関係をもつものとなる。
 
4.1.3 「認識」のあり方
 一般に対象は複雑な構造と多様な属性や関係などをもち、その数は数え切れない。このような性質をもつ対象を有限の能力で認識するには種々の捨象が行なわれる。すなわち、どのような対象でもそれを見るときは視点があり、その視点から対象のとり上げ方が判断される。る側面がとり上げられるときは、対象のもつ他の側面は切り捨てられることになる(図18参照)。
 
(1)個別性と普遍性
 すべての対象はそれ自身を他と区別する特徴をもつと同時に何らかの共通性をもつ。この個別性と普通性は相対的なものであり、見る視点によって相互に入れ替る。大きいリンゴ、小さいリンゴの個別性は「大きい」、「小さい」で表わされ、両者の普遍性は「リンゴ」で表わされる。しかし、「リンゴ」、「バナナ」、「梨」の間での「リンゴ」は個別性を言ったものでり、3者に共通する普遍性は「果物」として捉えられる。
 このように考えると目の前にある1つのリンゴを捉えるにしても、そのリンゴのどの側面を捉えるかによって種々の捉え方が生まれる。他のリンゴと区別するため、「このリンゴ」と取り上げるか、「赤い」とか「大きな」と言う属性に着目して取り上げるか、「陸奥」とか「国光」のように種としての側面を取り上げるなど、話者の見方は一律ではない。
 また、「リンゴ」と言う言葉だけでもリンゴの他の果物の中の特殊性として取り上げるか、個別的側面をとり上げるかによって、「は」と「が」が使い分けられる。「リンゴは」は特殊性を、「リンゴが」は個別性を表わす。例えば、「月は東に、日は西に」の句では特殊性の認識「は」が用いられるが、これは雄大な自然の中での「月」と「日」を取り上げている。これを個別的な認識に変えて、「月が東に、日が西に」と言うと、雄大な自然の情景は消え、「それでどうしたの」と問いたくなるような認識に変る。助詞「は」はこのような特殊性認識の他に普遍的認識をも表わす。両者の違いは表現と表現内容の結びつきから判断される。「地球は太陽のまわりをまわる」や「山は高い」などの「は」は「地球」や「山」の普遍的側面を取り上げている。
 
(2)具体性と抽象性
 具体性と抽象性は個別性と普遍性にほぼ対応する。事物の個別的側面に着目すれば、対象は具体的に取り上げられ、逆に普遍的側面に着目すれば、個々の事物の個別的側面は捨象され、抽象化が行なわれることになる。
 日本語のもつ認識構造では、具体性から抽象性につながる抽象化の流れとして、「もの」につながる系列と「こと」につながる系列がある。今、一人の人間が居たとき、これを「背の高い男」、「ワイシャツの人」などと人の範ちゅうをさらに具体化して捉える方法から進んで、より抽象的捉え方として、「哺乳類」、「動物」、「生き物」などのように捉える方法がある。このような抽象化の行きつく先が「もの」である。
 生物であろうと無生物であろうと、「もの」として捉えられるとき、形のあるものとして捉えている点を除けばその他のすべての性質や属性は捨象されている。次に、「東名高速でトラックと乗用者の交通事故があった」とする。これを捉えるのに、「東名高速の事故」、「トラックと乗用者の事故」として交通事故としての具体的側面を見る場合と、一般的に「交通事故」と捉えたり、交通事故か飛行機事故かも区別せず、不慮の出来事とする面から単に「事故」と捉えたりする。このような対象の抽象化の極限が「こと」である。「こと」として捉えられるとき、対象は物的存在ではないとして捉えており、その他の性質はすべて捨象されている。
 このように認識のもつ具体性、抽象性からみると、「もの」や「こと」は名詞のような使われ方をするけれど主語になれないから「形式名詞」と呼ぶのではなく、事物を捉える「名詞」そのものであり、対象を最も抽象化して捉えた認識を表現する名詞として、「抽象名詞」と呼ぶのが適切と言えよう。
 
(3) 主観性と客観性
 認識対象を認識するのは話者である。話者は対象とは別に存在する面と、対象そのものになる面があるが、まず話者は対象とは別の存在として考えてみる。話者が対象を認識するときは大なり小なり、必ず話者の見方が入ってくる。話者の見方を通してしか対象を捉えることは出来ない。しかし、話者も人間であり、他の人と共通する見方で多分誰でもこう見るであろうとする見方をすることもあるし、話者自身の個人的事情が強く反映した見方をすることもある。「ここにリンゴがある」と認識するのは別の話者でも共通した認識を持つだろうと言う意味で客観的事実としての性質をもつが、「旨そうか」、「まずそうか」となると、とたんに個人の事情が反映することになり、主観的に捉えるようになる。但し、この場合も「腹一杯の人でも思わず食べたくなるようなうまそうなリンゴ」だとなると、「誰でも旨いと思うに違いない」と言う意味で、「旨そうだ」と言う判断が客観性をもつ判断になってくる。
 話者自身が認識の対象となる場合についても同様である。話者が話題になるからと言って主観的な捉え方になるとは限らず、話者自身も客観的に捉える事が行なわれる。主観が入りやすい場合とそうでない場合があるが、180pの男が「私は背が高い」と認識しても日本では客観性があると判断されるであろう。また、ひ弱な男が「私は元気だ」と言っても、何らかの裏付けがなければ主観的な見方だと言うことになろう。
 
(4) 空間的視点と時間的視点
 物的対象を捉えるとき話者の時間的、空間的な見る位置が大きな位置を占める(図19)。話者が今、机に向ってペンをとって地球の姿を書いているとしよう。机に向っているからと言って、目の前のカレンダーに地球の姿が書いてある訳ではない。話者の観念は自己を離れて地球といろんな形で対崎している。観念的に自己分裂した仮想的な話者は海辺で地平線を一直線と認識し、人工衛星に乗った仮想的話者は地球を丸い水球だと認識する。円柱をみても真横から見れば長方形であるし、真上や真下から見れば円に過ぎない。これを円柱と認識できるのは話者が観念的に空間的位置を変えて対象をいくつかの視点から見た結果である。
 時間的視点についても同様の事が行なわれる。小説家はあたかも目の前で事件が進行しているように物語を書き、読者はその世界に引き込まれる。タイタニック号の沈没状況を描写するときは著者は観念的に分裂させた自分を空間的に沈没現場に移動させると同時に時間的にも沈没の時間まで過去に移動し、事故の推移に自分の時間を合せて描写する。
 言語に表現される対象はこのような話者の目を通して捉えられた姿であり、対象がそのまま表現に結びつけられるとする考え方は誤りである。
 
(5)観念的立場
 話者は時間的、空間的な視点の他に、多種多様な立場から対象を捉える。巨人対阪神戦において、9回裏のホームランで阪神が同点に追いつき時間切れ引き分けになったとき、巨人の新聞は「勝ちを逃がした」と言い、阪神ファンは「引き分けに持ち込んだ」と言う。善意の固りと思われる援助も地域経済を破壊する悪となることもある。すべての区別は相対的であると言うことは見方によって、区別の両側はお互いに移行し合うと言う事であり、対象を区別して取り上げるときは、必ずどちらかの立場がとられる。善悪の区別や良否の区別も例外ではなく、善悪や良否が対象のもつ絶対的かつ普遍的な性質だと考えるのは誤りである。言語表現が行なわれるとき、話者の時間的、空間的視点のほかに、どんな観念的立場に立って対象を見ているかを分析することが大切である。
 
4.1.4 「表現」のあり方
 発話の環境は実体、属性、関係の3者からなる対象と話者自身から成り立つ。話者は精神をもった存在であり、その精神が対象に働きかけて種々の認識が生まれる。話者と対象の関係は主体と客体の関係である。話者の認識を大きく分けると客体に関するものと主体に関するものに分けられる。客体に関する認識は、話者が対象を自己から独立した対象としてながめようとする意識のもとに生まれる。このような認識を表現する手段が客体的表現である。これに対して、主体に関する認識は、客体に対する話者の立場に関する認識であり、この認識を直接表現する手段として主体的表現が用いられる。主体に関する認識であっても、観念的に自己分裂した話者がこれを捉えるときは、観念的な話者からみれば、主体は話者から独立した対象として捉えられることになり、客体的表現が用いられる。
 以下では客体表現と主体的表現で用いられる日本語の品詞について、それらが話者のどんな認識を表わすものかについて概要を述べる(図20)。
 
(1) 客体的表現のことば
 客体的表現として使われる言葉は文法的には詞と呼ばれる言葉である。実体、属性、関係からなる対象のうち、実体に関する認識は名詞によって表現される。関係自体は感覚的存在ではないので、「関係」自体を概念的に対象化して名詞として用い、個々の関係は「親子関係」、「上下関係」、「AとBのつながり」などのように表現する。属性は静的属性と動的属性の2通りに分けられ、それらをそのまま表現するにはそれぞれ形容詞、動詞が用いられる。しかし、属性もこれを固定的に実体化して捉えた場合は名詞によって表現される。「大きい」「小さい」と言う静的属性は実体化されると「大きさ」「小ささ」のように名詞化されるし、「行く」「動く」と言う動的属性も実体化されると「行き」「動き」のように名詞化される。これらは動詞形容詞の連用形と同じ形をしているが、実体化された属性を表現する点で名詞であり、動詞や形容詞と区別される。動詞や形容詞の活用形とは明らかに異る「動作」「行為」などと同様、属性の実体化して表現したものである。
 対象に立ち向かう話者も客体化して捉えたときは客体的表現が用いられる。「私は〜」と言うときの「私」は主体であるが客体化されている。普通の名詞が実体のあり方を捉えたものであるのに対して、代名詞では実体と主体との特殊な関係が表現される。主体と対象との関係としては、@話者と話者の関係、A話者と聞き手の関係、B話題となる事物、場所、方角、人間などの関係の3種の関係があるが、「私」の認識、主体と対象化された主体との関係、即ち、@の関係にある主体を客体化したものである。
 
(2) 主体的表現のことば
 話者の感情や意志など、対象に対する立場や対象から引き起される話者自身に関する認識を表わす主体的表現としては、助詞や助動詞が用いられる。
 助詞は実体に立ち向かう話者の立場を直接表現する。「花咲く」と言えば、「花」と「咲く」との間に客観的な関係をとらえたものと見ることが出来るが、この関係は変らないものの「花が咲く」「花は咲く」「花も咲く」と言えば、「花」に対する話者の立場が変化してくる。このように、助詞が実体に対する話者自身の認識、もっと大たんに言えば「もの」と主体との関係に関する主体自身の認識を表わすのに対して、助動詞は「こと」との関係において話者自身の立場を表現するものと見ることができる。我々の認識は現実の世界だけを相手にするのでなく、想像によって過去の世界や未来の世界、空想の世界などさまざまな世界に行き来する。このような話者の見る世界と自分の関係を直接表現したものが助動詞である。
 この他、主体的表現としては感動詞、応答詞、接続詞の一部が用いられる。これらは話者の意志や感情などを直接表現したものである。話者の意志や感情はそれを生起させた対象がある等である。名詞+助詞や動詞+助動詞ではその対象が詞として表わされるのに対して感動詞などでは表現されないため、従来の文法では詞の扱いとなっているが、これらの詞はいずれも主体的表現の言葉ある。
 
4.2 言語能力と言語処理
 前節で言語のもつ過程的構造を表現の生まれるまでの過程に焦点を当てて述べた。与えられた表現を理解する過程は、表現の過程を逆に辿ることによって行われる。即ち、言語規範を手がかりに表現に結びつけられた話者の認識を追体験し、話者の認識の目を通して対象のあり方を知るプロセスである。
 先に人間の言語能力として理解能力、表現能力、思考能力について述べたが、理解能力は上記の追体験の能力であり、思考能力は認識の能力であるね。表現の能力は認識を表現に対応づける能力と見ることができる(図21)。
 以下、本節ではこの3種の能力のもつ過程的構造を一段細かく分析し、計算機による言語解析処理、言語生成処理と知識処理(知能処理)の関係について考察する。
 
4.2.1 理解能力と言語解析処理
 人間の言語操作はプロセスの意識が薄弱であり、反射的である。言語の理解においても人間の能力は反射的である。しかしこれは人間の理解能力の過程的構造を否定するものではない。よく見れば直列であれ並列であれ多数の過程を経て表現の理解が行なわれる。この過程的構造を追求することが理解の本質を探ることであり、計算機処理の方法論を打ち立てることに結びつく。
 このような立場から人間の理解の過程を分析すると大よそ以下の10種の過程が抽出される(図22参照)。
 @ 物理信号と論理符号の対応
   言語表現は一般に文字を用いて表わされる、文字は論理的な単位であり、物理的に  は線図形(文字図形と言う)か又は音声に対応させられる。言語表現の理解はこれら  の物理的で感情的な線図形としての文字と音声を論理的で超感情的な文字と対応づけ  ることから始まる。手ぶり言語や身ぶり言語(手話など)ではこの過程をとばし、物  理信号を直接単語のレベルに対応させることもあるが、通常の音声や文字では物理的  な信号が論理的な表現の単位である文字に対応される。この過程を機械的に実現する  ものが文字認識と音声認識である。最近文字認識や音声認識において言語処理の重要  性が言われるようになって来たが、それは、文字や音声の物理的特性だけから論理的  な文字を決定する事のむずかしさを克服する手段として、言語のもつ論理的文字の間  の関係に着目しようとしたものであり、文字認識、音声認識の目的が物理信号を論理  符号に対応させることにある点は変りない。
 A 文の切り出しと単語分け
   対象のもつ構造的特徴を表現する単位が文であり、文の中で扱われる個別的対象は  単語に対応づけられる。論理的符号としての文字の連鎖の中からこのような文の単位  と単語の単位の切り出しが行なわれる。即ち論理的符号としての文字の連鎖はより大  きな論理単位である単語に対応づけられ、さらに文に対応づけられる。
 B 単語の文法的範疇の決定
   単語は文中で定められた役割をもつ。文は構造的な特徴をもつが、これは文中に用  いられた単語と単語の相互の関係から成り立っている。単語は種々の文法的範疇とし  ての性質をもっており、文法的範疇はその性質から相互の結合の形をもっている。こ  の結合の具体的な表現が文を構成する。従って、文は語の文法的範疇を決める手がか  りを提供しており、単語の文法的範疇はこれによって決定される。
   AとBの過程によって論理的最小単位である文字の連鎖から、構造化の単位となる  文法的範疇付きの単語列に変換される。この過程が言語処理では形態素解析と呼ばれ  る過程であり、言語処理の最も基本となるプロセスである。
 C 単語の意味的範疇の決定
   各単語はそれで表わされる対象の範囲としての意味的範疇をもっている。各単語対  応する意味的範疇の関係は言語の約束であり、言語毎にあらかじめ与えられたものと見ることができる。例えば「暗い」と言う単語で表される対象は「明らかでない」「明かるくない」のほか「おろか」なこと、「不案内のこと」、など複数の概念のいづれについても用いることができる。英語の「dark」は「暗い」のほか、「黒い」「悲しい」「凶悪な」などの概念を表わすのにも用いられる。このプロセスは文中の各単語が言語の約束により、どんな概念と結びつけられ得るかを想起するプロセスであり、意味的な約束の範疇を明らかにするものである。
 D 単語と対象概念の対応の決定
   単語が種々の意味語義に使われることが分っても、実際の表現ではどの意味語義で  使われたかは明確でない。この過程では単語が話者のどんな認識と結びついて使われ  ているかが明らかになる。各単語と話者の認識との対応関係は単語の意味的約束から  だけでは必ずしも明らかにはならない場合が多く、語と語の関係や文と文の関係など  に関する情報が必要なときもあり、そのような場合にはより先の過程に進んだ後その  結果をフィードバックして決定されることが多い。しかし、言語理解の過程には、使  用された単語が認識の単位として話者のどんな認識と結びつけられているかを明らか  にする過程が存在する。この過程が一般には、句や節や文で表わされる構造化された  話者の認識を明らかにする第一歩である。
 E 句、節構造と対象概念の対応
   話者の構造化された認識は、言語表現においても構造化された表現に対応づけられ  る。従って、話者の構造化された認識を知るには、表現のもつ構造を調べる必要があ  る。単語と単語の関係が構造化されるとまず、句や節が構成される。句や節は、単語  に結びつけられた概念が構造化されるときの最小の単位である。
 F 文構造と対象概念構造との対応
   句や節が組み合せられて、より大きな構造が形成される。文は話者の発話の単位と  してまとめられた構造をもつ。すなわち話者の構造化した認識は、文に対応づけられ  て発話される。この話者の構造化された認識と文との対応関係を調べるには、まず表  現として与えられた文がどんな構造をもつか、その構造で表わし得る話者の認識はど  んな内容を持ち得るかを調べる必要がある。
   言語処理では以上のCからFまでの過程で行なわれる構造的な分析を構文解析と呼  んでいる。既に明らかなように、文の構造と言えども、それは話者の認識のもつ構造  と無関係ではない。文の構造は話者の認識の構造と対応関係をもつ。言い換えれば文  の構造は話者の認識の構造とのつながり(意味) に支えられて成り立つものであり、  意味を離れた構文の解析はうまくいかない。従来の構文解析では意味と構造は別物と  考えて、文のもつ形式的、構造的特徴のみに着目して解析を行なおうとするものが多  いが、意味と構造は不可分の関係にあることに目を向けた解析法の研究が必要である。 G 文の意味の特定
   与えられた文の構造対応づけ可能な認識の中で、話者は現実にはどの認識と関係づ  けているか、すなわち話者の認識は可能な解釈のうちどれに対応するかを特定する   プロセスである。語や句や節と、話者の認識を対応づけるプロセスに比べて、文と話  者の認識を対応づけるプロセスでは可能な解釈の幅が、構造化の過程でかなり絞り込  まれて来ており、あいまいさが減少している。しかし、なお曖昧さの残ることも多く、  その場合はこのあとの分脈や談話理解と組み合わせて、対応する話者の認識との関係  が決定される。
 H 文脈の理解
   話者がより込み入った複雑な概念を表現する場合は、単独の文では表わせなくなる  ことが多い。このようなときは複数の文を組み合わせて表現が行なわれる。表現が文  単位に分れていても、このような表現では各文はお互いに関係づけられており、前の  文で表わされた認識が次の文では一語で表わされたり、逆に前の文では一語で捉えら  れた概念が次の文では構造化されて文に表現されたりする。このような関係をもつ文  は関係の一つづつを明確にしていかなければ、話者の認識を正しく知ることはできな  い。言語処理ではこのような文と文の関係の解析を分脈処理と呼んでいるが、この技  術を確立するには話者の認識のより大きな構造的特徴を調べる研究が必要であり、形  式を見ただけの研究では余り期待できない。     
 I 談話の理解
   発話には一定の発話環境が付帯する。聞き手が特定される場合は話者は、自分の聞  き手と自分との関係を強く意識した上で発話をする。聞き手が特定されない場合も、話者は自分の発話をどのような人が見聞きするかについての仮定をする。このような実際的もしくは仮想的相手との関係の上で話者の表現は行なわれる。自分の幼い子供に向かって「パパはいまから会社に行くからね」と言えば、幼い子から見た自分は「パパ」であることを考え、聞き手の立場から話者の事を表現しているが、これは発話 の環境を意識したものである。従って、表現はそれが発話された環境との関係から解釈されなければならない。逆に表現からそれが発話された環境を知り、ふり返って表現の解釈にそれを生かすことも必要である。
   話者が思想的なレベルでの認識を表現する場合は、いくつかの段落を設け順以発話  の環境を設定しながら発話を続けるような大きな構造を設定する事がある。この場合、  発話の環境は前の段落(時にはうしろの段落)によって示されており、その環境条件  下で、文と話者の認識は対応づけられる必要がある。
   このような処理は言語処理では談話理解が対応するが、具体的な計算機処理の方法  はまだ未着手の状況と言ってよい。
 
4.2.2 表現能力と言語生成処理
 人間の表現能力も反射的であり、プロセスとしての意識が薄弱である場合が多い。しかし、これも人間の表現能力が過程的であることを否定するものではない。本節では直列的であったり並列的であったりする表現のプロセスについて考察する。
 理解の能力が話者の認識の追体験の構造をもつことから考えて、表現の能力は理解の過程と大きくみて対称的な構造をもつと考えられる。ここでも表現のプロセスを10の過程的構造として考案する(図23参照)。
 @ 談話構造(段落やストーリ)の設定
   発話の環境条件の認識をもち、その中で発話の構造を決める。思想的に複雑な認識  を表現するときは、いくつかの段落を設け、その段落間の関係を概念的に設定する。 A 段落内文脈構造の設定
   概念的に設定された各段落の中の構造として、何を始めに述べ、引きつづき何を述  べるか、段落の主眼点はどうまとめるかなどの配置や順序を決める。段落で表わす概  念を文の単位に分け、その相互関係を決める。
   @とAのプロセスは、話者の大きな認識を文章構造に対応させ、さらに文の関係構  造を決めるものであり、言語処理では文章構造の形成とでも言うべき過程であるが、  現在の言語処理でこのレベルの過程を扱う方法論はまだ無い。
 B 表出文意の決定
   概念レベルで一文一文で表わされる対象との関連を決定する。一文一概念とも言う  べき対応関係であり、抽象度の高い概念と文との関係を決めるものである。
 C 概念構想と文構造との対応
   抽象度の高い概念も細かくみれば構造的で具体的な特徴の組み合せとみることがで  きる。概念的な思想のもつ構造を文の構造に対応させる。感覚的な概念のもつ構造を  見て、どんな文の構造に対応づけられるを判断し、文の大よその構造を決める。
 D 句構造と表出概念の対応
   文構造の大よその設計に従って、各部分的概念と文の部分としての句や節との対応  関係を決め、さらに部分的概念の構造を見て句や節の構造を対応させる。
   以上のBCDのプロセスは言語処理では文構造の生成に対応する。しかし、現実に  は上述のような意味で文構造の生成に取り組まれた例はない。これは概念のもつ構造  的な特徴と文のもつ構造的特徴の関係が関連づけて研究されていないこと、すなわち  文の構造のもつ意味についての研究が行なわれていないことに起因する。
 E 主体概念と単語との対応
   認識の対象は客体であるが、客体は話者の目を通してしか捉えられないため、客体  を捉えるときは必ず話者の見方が持ち込まれる。この話者の主観の直接的表現として  主体的表現なる語が選択される。 
 F 客体的概念と単語との対応
   Eの過程のもう一方で、客体をどんな概念で捉えるか、どの側面をとり上げどの側  面を捨象するかにによって対応づけられる単語が選ばれる。
   EとFの過程はどちらが先とも言えない場合が多く、多くの場合は並行して行なわ  れるプロセスで、言語処理では単語選択の処理が対応する。
 G 文構造の整形
   文の構造はCのプロセスではほぼ出来上がっている。会話での表現生成のときはこ  のプロセスは殆ど意識されないが文章作成のときは、もう一度自分の認識が文の構造  にうまく対応づけられたかどうかを見直して、句や節の順序の入れ換えや追加、削除、  より適節な表現への置き換えなどが行なわれる。
 H 単語整形
   各単語の形についても言語規範に合うように調整される。英語の語形変形は意味を  変える事が多いため、話者の認識した概念を単語に対応させる段階で、語形変形が伴  なうことが多いが、日本語では意味を変えない形式的な変形が存在する。動詞や形容  詞、助動詞の活用などはこのような変形であり、単に前語の単語の関係から決まる。
 
   GHの変形整形のプロセスは、言語処理では形態素調整と呼ばれるプロセスに対応  する。このプロセスを経て、話者の認識は言語規範を介して論理的(超感性的)な符  号列に対応づけられることになる。
I 物理信号との対応づけ
   論理的な符号列としての表現は人間の精神の中に構築されたものであり、これを相  手に伝えるためには感性的手段対応づけなけれならない。感性的手段は相手の五感の  いずれかに働きかけるようにすることであり、そのため物理的な媒体として音声や文  字が用いられる。通常論理的な符号列としての表現は論理的な文字で表わされるから、  論理的な文字が物理的な文字や音声波形に対応づけられることによって、相手の視覚、  聴覚に働きかけられるようになる。
   この過程が計算機処理では音声合成や文字と呼ばれる過程である。
 
4.2.3 思考能力と知識処理
 言語における認識のあり方については4.1節で述べたが、ここでより高度な人間の認識能力として思考能力について考えてみる。人間の思考能力は「判断の能力」と「予測の能力」に分けて考えることができる(図24参照)。
 
(1)判断の能力
 判断のレベルは大むね以下の3段落に分けられる。
  @個別的判断(現象論的段階)
  A特殊的判断(実体論的段階)
  B普遍的判断(本質論的段階)
 人間の判断は個別的なものから次第に普遍的なものに向う。これは真理の部分性、相対性と対応するものであり、小さな真理の発見から大きな真理の発見に対して判断のレベルは向上する。例えば、「水素と酸素を反応させ水を作ったときは、水の重さはもとの水素と酸素の重さの和に等しい。」と言う判断は個別的な判断であるが、いくつかの物質の反応を調べて、「化学反応の前後で物質の質量は保存される。」と言う判断を得れば、これは一段上の判断であり、特殊的判断と言える。これに対して、原子の生成消滅や物質とエネルギーの互換性まで考えにいれて、「反応の前後でエネルギーは保存される」と判断すれば、これはさらに高次の判断であり、普遍性判断と言える領域のものになる。
 一般に判断が一段階上るときは判断に質的な変化が伴なう。この質的変化を伴なう判断は人間の知能の働きによる。計算機処理で言う知識処理と知能処理の本質的な差は判断レベル向上の有無にある。上位の判断から下位の判断を導いたり、個別的判断を整理することは比較的容易であり、知識処理の領域であるが、下位の判断から上位の判断を導く知能処理では判断に質的な飛躍があり、計算機では困難である。例えば「人は死ぬ」の上位判断から「人間であるAさんは死ぬ」と言う下位判断を導くのは困難ではないが、「Aは死ぬ」「Bは死ぬ」「Cは死ぬ」と「A,B,Cは人である」と言う個別的判断から「人は死ぬ」という特殊的判断を誤りなく計算機に実行させるのは容易でない。1万人は死んでも1万1人目の人は仙人であり死なないかも知れないからである。人間はこのような飛躍を伴なう判断を仮設として設け、それを検証する手段を考案して検証すると言う科学の手法をもっている。
 このように考えると新しい飛躍を伴なった発見するには感が大切であり、優秀な科学者ほど優れた感をもっていることが納得されよう。感をみがくにはそのバックグラウンドとしての知識が重要であるが、もの知りであるだけでは感はするどくならない。個別的な判断にせせよ普遍的な判断にせよ、その限界に目を向け、事物の本質に迫る態度が必要である。意味解析を論じながら、「意味ほどあいまいでつかみどころのないものはないから」として、意味を定義しないまま意味処理アルゴリズムを述べる現在の風潮は克服されなければならないだろう。
 
(2) 予測の能力
 事物に関する認識の構造化が進めば、人間の思考能力は判断から予測へと進化する。バラバラの概念を組み合せるところに判断の構造があったが、今度はバラバラな判断を組み合せるところに予測が生まれる。予測にも低位の予測から高位の予測があり、そのレベルを分けると大むね以下の3段階をあげることができる。
  @直感的予測(感性依存の段階)
  A合理的予測(経験と学習の段階)
  B理論的予測(仮設的段階)
 直観的予測は手がかりも根拠も殆どない素朴な予想であり、あてずっぽと言える段階である。影絵を見て物を当てるようなものは、直観的予測の中でも高次のものである。これに対して合理的予測では、理由を考えて予想が進められる。理由としては過去の類似の経験や実験学習や耳学問によるものなどがある。合理的予測が直接的理由に基くものであるのに対して、理論的予測ではより一般的な理由が用いられる。仮設的な予測を打ち立て、かなり広範囲に亘る理論を導こうとする高次の段階である。
 この3段階の予測に計算機による推論を当てはめると、大むね以下の通りである。
   直感的予測統計的推論
    合理的予測演えき的推論
   理論的予測機能的推論
当たるも八卦当たらぬも八卦と言うレベルには統計的に身につけられた直感が対応する。合理的予測では予測の手続き自体が知識化されており、その知識を適用すると言う意味で演えき的推論が対応する。また、理論的予測では、従来の経験や学習で得た知識を越える次元の高い平面上での予測が行なわれる点で帰納的推論が対応する。
 
5. 自然言語処理研究の新らしい視点
 言語は他の世界と同様、過程の複合体であると見る立場から、言語のもつ大きな過程的構造と、その中の各過程のもつより小さな過程的構造について述べて来た。自然言語処理もこのような言語観に基き、見なおしていく必要がある。本章では言語哲学から見た言語過程説を言語科学および言語工学に展開する立場から、その一歩として考えるべきいくつかの視点について述べる。
 
5.1 論理学と言語学
 
 (1) 一般科学と個別科学
 自然言語処理の研究を進めるとき、自然言語が余りにも大きい対象であるため、研究の第1歩として言語の論理的なモデルを設定し、そのモデルを自然言語に当てはめて、不足する部分を順次拡張すれば良いとする考え方がよく主張される。この考え方は一見正しそうに見えるが重大な過ちを犯す危険がある。
 自然言語の研究は自然言語のもつ特殊性の追求が主たる課題であるのに対して、論理学は日常見られる現象に共通する論理的普遍性を追求する学問である(図25)。自然言語が日常の現象をも捉え表現するものである以上、その枠組みの中には現象に共通する論理的普遍性を見い出すことはできる。しかし、逆に論理的普遍性から自然言語を説明することはできない。言語は日常現われる個別的な現象やそれに対する話者の捉え方、感じ方など、話者と対象との個別的なあり方を表現する手段である。これらの個別性と特殊性を取り去ることを目標とする論理学の立場で言語処理を考えれば、自然言語の研究とは言えなくなる。
 従来、自然言語処理においてはトイ・モデルと現実とのギャップが大きいことが言われている。これには種々の理由と背景があるが、論理的で抽象化された思考モデルを言語に当てはめる傾向も原因の一つと言えよう。トイ・モデルと現実とのギャップを克服するためには包丁に材料を合わせるのでなく、材料に道具を合わせる立場から、言語の個別性、特殊性をよく分析し、それに合う道具を開発していくことが必要である。
 
 (2) 言語の特殊性
 対象の特殊性は、他の対象との比較によって始めて明らかになる。自然言語の特殊性を考えるには、絵画、音楽、記号などの表現との違いを考えれば良い。絵画や音楽が感性的表現であるのに対して、記号や言語は超感性的な表現である点がまず異る(図26)。従って、記号と言語は理性的な領域に約束事があり、その約束によって成り立つ表現だと言うことができる。図形的な記号や文字であってもそれが理性的な約束を介して用いられるとき、絵画とはならない。言語と記号の違いについても、言語は記号の一種だとするソシュールの説などがあるが、両者の間には明確な違いがある。すなわち記号で設定される約束は局所的なものであり、それが使用される毎に、改めて定義される事を基本とするのに対して、言語は自然発生的で社会的な約束によって成立しているため、使用に当たって改めて定義する必要はない。
 現実の対象は対立物相互浸透の原則によって、絵画、記号、言語の混在した表現媒体となる事がある。ネオンサインや広告では、絵か記号か言語かの判断を迷う表現が見られるが、いずれも前述の原則に照らし合せて、社会的で自然発生的な約束である言語規範によって、表現の意味の媒介されている限り、言語と捉えることができる。
 言語はその規範が成立すると、その約束の使われる範囲が社会的に拡大して行き、社会生活で同じ約束が使われようとする強制力が働く。集団の中で共通して使われるような普遍的な約束となっていく。しかし記号ではこのような規範の性格が欠けている。必要に応じて個人的な工夫をし、局所的に定義して使用される。
 言語の特殊性が上記の通り、社会的で自然発生的な言語規範の存在にある以上、自然言語の研究は言語規範のあり方の追求を本命とする事になる。自然発生的で社会的な規範は道徳とも対比される。道徳を有限の集合として書き出す事は困難であり、中でもより具体的に約束としてさしつかえない範囲の内容が法律などの形に固定化される。法律も現実の世界に合せるために、いくらかの解釈の予地を残すように作られるが、これは時と共に変化し成長する道徳との整合の予地を保つための仕かけと言える。言語も変化しており、その中で広く行き亙って定着した約束が文法書や辞書の内容として抽出されるが、またまだ現実の言語と比べると抽出された約束は一部にしか過ぎない。まだ言語規範の全体が捉え切れないと言って、言語の特殊性を忘れて頭の中に考えた論理的なモデルを言語に押し付ける考えでは自然言語の姿は解明できない。論理モデルは一般科学として普遍性を追求する論理学者に任せ、自然言語の研究者はスタートポイントを自然言語に置き、自然言語から学ぶ姿勢を崩してはならない。自然言語の研究者としては現実の自然言語の現象の裏にある話者の認識と表現の関係について解明し、それを計算機処理に結びつけることが期待されており、その過程で論理学者の得た結果の使える部分があれば、部分的に応用
していけば良い。
 
5.2 認識と言語処理
 
 (1)対象と認識の分離
 言語表現には、対象のあり方が話者の認識を通して表わされているから、対象のあり方がそのまま表現されているとは言えない。表現に表わされる内容は、対象のあり方と話者の考えや見方の2つに大別できる。従来の言語処理ではこの両者を分離せず、ごちゃまぜに扱っていることが多い。言語表現に現われた対象のあり方は話者の目を通しているため、人によって千差万別のあり方に見える。しかし、対象は人によっても共通するものであるため、読者は話者の目を通して表現された対象のあり方を見て、自分にも共通する対象の像を想像し、理解する。そこで、ここでは言語表現に表わされた対象のあり方と話者の認識を分けて、それぞれのあり方を調べる立場から言語処理の方法論を築くことを提唱したい。
 
 (2) 話者認識の表現モデル
 対象に対する話者の認識の現れる部分として、話者の見方、捉え方の違いの生じるところを考える。表現には話者自身である主体と対象となる客体のあり方が結合されている(図27)。話者自身も客体化されて捉えられることがある。その場合の話者は客体に含めて考えると、話者自身のあり方は主体的な表現に現れる。そこで、話者の捉え方の現れる部分は客体の捉え方と主体のあり方の2つに分けることができる。
 @ 客体の認識のあり方とその扱い
   対象を客体化して捉えるときは、必ず対象は程度の差はあれ普遍的側面によって抽  象化もしくは一般化される。対象のどの側面をとり上げ、どの程度の抽象化と一般化  が行なわれるか、この差を何らかの手段で表現し、処理対象に持ち込むことが第1の  課題である。対象の具体性、個別性と一般性、普遍性の関係を表現する枠組みとして  は、従来シソーラスの方法がある。シソーラスは語の上下関係、同義語関係などを整  理したものであるが、これをさらに対象の捉え方の一般性と普遍性の観点から整理し、 人による対象のとり上げ方の差の抽出に使えるようにすることが望まれる。
  次に、客体の見方の違いとして、話者の空間的視点と時間的視点をあげることがで  きる。対象を見る際、空間的にどの位置から捉えたかによって、対象の見え方は異な  る。そこで、空間的な視点を表わすパラメータとして、上/下/左/右/前/後/内  /外などの物理的な位置表現パラメータのほか、論理的で抽象化された位置パラメー  タを設定して、視点の変換と対応する表現の変換の仕組みを研究することが大切と思  われる。空間的視点は必ずしも固定的なものではない。英語に比べて日本語は視点の  移動の多い表現が好まれる傾向にあること。また、話者は必ずしも表現のもつ視点に  物理的に存在するとは限らず、観念的に自己分裂した話者が移動して捉えている場合  が多いことなどを考えて空間的視点の表現法を探求する必要がある。
  空間的視点が対象と話者との空間的位置関係を意味するのに対して、時間的視点は対 象と話者との時間的関係わ意味する。現実の対象は時間的存在であるが、言語表現に表 わされる対象は仮想のものもあり、必ずしも絶対的時間軸上にその位置を表せるとは言 えない。しかし、話者との関係からみれば、相対的時間関係が存在する。そこで、時間 的視点を扱うため、話者と対象との関係を表わす相対的時間軸を設定し(図28)、その 上で対象と話者との時間的関係を表現すれば、話者の時間的視点を処理に持ち込めるも のと期待される。この軸を通して変換すれば、日本語と英語の間の時制の捉え方の違い も吸収され、適切な翻訳が出来ると同時に、異る言語間に共通する対象のあり方を抽出 して処理の対象とすることができるようになるものと期待される。
 A 主体の認識のあり方とその扱い
  主体に関する認識は2通りに分けられる。そのひとつは主体を客体として見る認識で あり、もうひとつは客体の認識に付随する話者の心理的現象である。
  話者自身である主体も他の人から見れば客体である。話者は自分を他人と比べたり、 他人の立場に立って物を見たりする。このとき、話者は観念的に事故分裂して事故の  分身を生み、この分身を通して対象を見ることになる。このような精神的な自己分裂の 能力は人間だけが獲得した能力であると言われている。観念的な自己の分身はさらに時 と場所を越え、過去や未来や空想の世界に出かける。現実の世界に戻って来れなくなる ような精神障害は観念的自己分裂の仕組みの障害でもある。このような話者の精神的自 己分裂を通して捉えられた主体は客体的に表現されることになるから、言語表現の形態 的な解析の段階では客体的表現と全く同様の扱いが可能である。表現の意味を理解する 課程で話者の意志や意図を抽出するとき話者のあり方として他の対象と分離して解析す ることになる。 
  次に、客体に付随する話者の認識について考える。話者が対象をとり上げるに際して、 その対象に対して何らかの感情や、意志を伴うのが普通である。これらの感情や意志は 対象の取り上げ方の差として言語に表現される。例えば「山」を取り上げるとき「山は」 、「山が」、「山も」、「山へ」、「山で」、「山から」などのように表現されるが、 これらにはそれぞれ話者の「山」に対するスタンツの差が表されている。これらの表現 が主体的表現であるが、主体的表現は客体的表現とは異なり話者による差がきいため、 客体のあり方とはむしろ切り離し話者の態度として解析する方が適切と考えられる。
 
5.3 主体と客体の扱い
 
 (1) 主体的表現と客体的表現の分離
 言語表現は主体的表現と客体的表現が混合された形態をとり、両者に話者の見方、捉え方が現れるが、中でも主体的表現は話者自身の感情や意志が直接現れる部分であり(図29)、話者の違いによる差が著しく現れる。日本語と英語においても、言語族の違いによる感性の違いが反映されているため、表現の対応関係をとるのがむずかしい。
 そこで、言語の違い(図30)による話者の見方の違いを取り出し、対象の共通性と言語による見方の違いを分けて処理するためには、まず、主体的表現と客体的表現を分離し、別々に処理することが有効と考えられるしかし、主体的表現と客体的表現は言語表現上結合されているため、主体的表現を完全に取り去ったあとの客体的表現のみでは言語表現ではあり得なくなってしまう。そこで、若干の主体的表現を含む表現形式を疑似的客体的表現の枠組みとして定め、主体的表現の情報を抽出したあとの言語表現を疑似的客体的表現に縮退させる。抽出された主体的表現の情報は、客体的表現とは分けて処理されることになる。
 
 (2) 客体的表現に現れる主体の扱い
 話者自身を表わす主体も、これが客体化されて捉えられると客体的表現として表現される。世界知識を用いた言語理解などの処理では、話者を除く対象世界のあり方を抽出し、それを世界モデルと比較し、対応関係をしらべる事が必要となる。このような場合、客体的表  現を話者に関する部分とその他の話者と独立な部分に分け、両者の関係を解析することが必要となる。従来、様相表現と言われているもののうち、客体的表現で表わされるものの扱いがこの対象となる。様相文脈を生成する動詞(「信じる」、「感じる」、等)などでとり立てられる対象世界と話者の関係を表す仕組みの追求が必要である。
 
5.4 統語構造のもつ意味の扱い
 話者は語の約束や句や節の約束などを用いて自己の認識を立体化して、表現する。この立体化は意味に支えられた構造化に関する文法規則に基いて行われる(図31)。すなわち、対象のあり方が話者の認識に反映し、それが統語構造に反映する。これは統語構造が認識に結びついていること、すなわち、統語構造が意味の一部であることを意味する。生成変形文法のように構造と意味が表層構造と深層構造のように対置されるものではなく、意味は表現と認識、対象の結びつきであり、表層の構造は意味の一部である。従って統語構造のもつ意味を考えないで、部分の意味から全体の意味を合成しようとする要素合成方式や表現を細分化して分析すれば全体が分ると考える原子論的方法(顕微鏡学派的方法)では表現の意味の欠落を防ぐことは困難である。
 構造のもつ意味を考えるとき、部分を全体の中に位置づけて解析を進める事が必要である。各部分はそれを含む上の構造の中に位置づけられて始めて意味をもつ。そこで、処理を行う単位を上位の構造から抜き出すときは、意味を変えない表現の単位を注意して取り出すこと、取り出した表現の部分の意味を上位の構造の中に位置づけて解釈することが必要である。例えば、翻訳では単語単位に翻訳した結果を統語構造に合せて組み立てるのではなく、句や節など構造のもつ意味を失わないような単位を表現毎に見定めて、構造ごと目的言語の表現に対応づけていくなどの工夫が必要である。
 
5.5 多義との戦い
 
 (1) 多義と知識
 自然言語処理の研究は多義との戦いの連続であると言える。多義は必要な情報が不足することによって生じる。一般に読者が与えられた表現から話者の認識を追体験するときの手がかりとして2通りの情報(知識)が用いられる。一つは言語規範に関するものであり、もう一つは話者が対象とする世界に関するもの(言語外知識;常識や専門知識)である(図32)。従来、言語処理において世界知識の必要性が叫ばれているが、現実にはまだまだ言語知識さえ十分には活用されていない。会話文の意味理解など話者の意図まで正しく把握することの必要な場合を除けば、翻訳や文章誤りの検出など、言語知識の範囲で実用的な言語処理技術の確立できる分野は多数存在すると考えられる。ここでは、まず言語知識を有効に生かす方法を考えることの必要性を主張したい。
 
 (2) 多義解決の視点
 前節で述べたように、統語構造と意味は一体化したものであり、これを独立に扱おうとすれば、構造のもつ意味が欠落する。従来の構文解析では意味とは切り離れた統語構造が形式的に処理される傾向にあった。そのため構造上の解釈の多義が多数発生し、その取り扱いに困難を極めることが多かった。そこで、構造のもつ意味を失わないように、扱う構造の単位を取り出し、上位の構造から与えられた環境条件下での部分の解釈を実行すれば、構造上の多義の発生も最小限におさえることができると考えられる。
 例えば、図33のように、表現に用いられる一語一語の語義についても種々の約束があり、話者がそのうちのどの約束を用いたかを判定する必要がある。そこで、構造のもつ意味を考えるなら、語と語の結びつきの中に、それぞれの語がどの約束(語義)で使用されたかを知る情報が含まれている。句や節についても同様、それらを含むもう一段上の構造の中に多義を解釈する手がかりがある。 
 このような多義の発生を最小化していくためには、表現の構造と意味を一体化して掬いとる枠組みとして、意味的結合単位に着目した表現のパターン化を行う事が効果的と考えられる。しかし構造と意味を合せて精密に捉えようとすればする程、必要なパターンの数は増大し、現実の計算機処理の能力を超えてしまう可能性がある。そこで、構造と意味のパターンは表現要素の結合の強さに注目して、何段階かに抽象化し(図34)、抽象化された構造パターンを網として、表現の構造を意味ごと掏いとることによって、工学的にこの矛盾を調和させ、解決していくことが必要と考える。6章において、日英翻訳における多段変換方式の中でこの問題を解決する1例として3段階の構造抽象化の方法を提案する。
 
5.6 人間と計算機の分担
 自然言語処理の研究においては既に述べたように、従来、常識や専門知識などの言語外知識の必要性が言われており、機械翻訳などの言語処理が望み通りの目標を達成できないのは、常識の扱いが未熟なためだとも考えられているきらいがある。自然言語処理にも種々のレベルがあり、目標とする処理の性質をよく見極めた上で、何が不足しているかをもう一度考え直す必要があると思われる。
 第3章で示したように、自然言語処理の役割を@人と人との通信、およびA人と計算機の通信の2つの立場に分けて考えよう(図35)。人と人との通信においては、話者と聞き手は共に人間であり、両者には対象する知識として、一般知識や専門知識の共有が期待できる。従って、話者の表現に含まれる内容は計算機が必ずしも理解しなくても、聞き手に正しく伝われば良いことになる。機械翻訳においても、計算機は意味を理解していなくても、生成された表現をみれば聞き手はその意味が正しく分れば良い。計算機の意味理解の必要な部分は、原言語の意味を目的言語に訳し分けるのに必要な範囲であり、それ以上の解析は必要でない。同一言語族用の翻訳に比べて、異る言語族間の翻訳では、より一層深い解析が必要だとしても、それは必ずしも計算機が表現の意味をもらさず理解することを意味しない。ここに、人と人の通信で使われる自然言語処理の特殊性がある。
 これに対して、人と計算機の通信では計算機は人に代って応答することが主たる特徴であり、そのため、計算機は話者の表現の内容に立ち入ってそれを理解することが必要となる。内容を理解することは話者の体験を追体験することであり、そのためには話者と共通した一般知識や専門知識が必要となる。このような言語外知識は文化そのものであり、その全貌を計算機に持たせることは事実上不可能である。そのため、人間と計算機の通信においては対象とする世界を極力限定して、話題を絞り、必要な範囲を見定めて知識を構造化し計算機に持たせる事が必要となる。このような人間と計算機の通信の場における自然言語理解の方法については、後の6.2章で1つの考え方を指適する。
 いずれにしても、自然言語処理の研究においては、まず目的とする対象の特殊性を見定め、目的に合った方式技術を追求することが必要である。始めから汎用性を狙った研究は成り立ちにくい。目的に合せた方式技術研究の結果から、自然言語処理技術としての共通的で汎用的な部分が浮び上ってくることが期待される。蛇足ながら、汎用的技術と言っても、自然言語処理としての特殊性の中の話であり、日常現象の論理的普遍性を追求する論理学の体系と異った体系となるであろうことは言うまでもない。
 
6. 新しい視点からみた言語処理方式の例
 前章までの試論をふまえ、@人間と人間の通信、A人間と人間の通信における自然言語処理の例として、それぞれ日英翻訳と日本語会話処理を対象に新らしい方式とその考え方について提案する。
 
6.1 日英翻訳における多段翻訳方式の例
 
6.1.1 従来の翻訳方式の問題点
 従来の翻訳技術の研究では格文法など生成変形文法の流れをくむ考え方に基くものが多い。例えばピボット方式では、人間に共通する深層構造を仮定し、もしくは言語に共通する対象のあり方に着目して、これを言語に独立した中間言語で表現する事を仮定している(図36)。共通する最小セットをピボットとする考えもあるがそれでは社会的(言語圏で異なる)な発想の枠組の違いを反映した自然言語を表すことはできない。また概念構造変換方式では現実にはこのような中間言語の設計は困難であるとする立場から一歩進んで深層構造の言語依存を認め、言語依存の深層構造を中間言語として設定しているが、このような中間言語で意味を捉え切れない欠点がある。例えば中間言語としては格構造が採用される事が多い。しかし、格文法では「どの言語においても述語の役割を果す語のすべてに敷えんできるような、数少い根元的な概念が存在する」ことを前提とし、深層構造を格概念で説明しようとしたが、フィルモア自身も認めている通り、深層格の目録作り、個々の格の定義法など重要な点についての問題が解決されていない。どのような格目録を作成しても、それに該当しない概念が現れ、無理に分類すると意味の欠落を生じるため、格目録が無数生じる。いずれの場合も対象のあり方と話者の認識のあり方の関係への視点が無く、反映論が欠けている点で共通している。対象と認識の関係を考えるなら対象は認識に反映するが、それは機械的な反映ではなく、認識は対象に対して相対的独立性をもつことが指摘できる。すなわち、対象のあり方は共通していても人によって見方、感じ方が異なり、それが表現に反映する。対象の見方、感じ方は人間の集団によっても差が生じる。この差が言語のもつ表現の枠組みの違いに影響していると考えることができる。従って、翻訳においても対象と認識を区分して捉え、同一の対象に対しても言語によって認識の枠組みが異ることに着目して方式を考える事が必要と考えられる。
 
6.1.2 多段翻訳方式の提案
 文法書と辞書で代表される言語知識の範囲で、一文単位に独立して翻訳の可能な文を一文完結型の文と呼び、この範囲の実用文を対象とする日英翻訳方式として、図37に示す考え方に従い、多段翻訳本方式を提案する。翻訳においては一般常識や文脈解析の必要性が言われているが、現実には日本語の実用文中、一文完結型とみられる文が約9割を占めるため本論文では一文完結型の文を対象に考える。
 本方式は以下に示す2つの部分的な方式から構成される。
 
 (1)主体的表現/客体的表現分離融合方式
 日本語は膠着言語の特徴として、主体的表現に助詞、助動詞などの単語が用いられるのに対して、英語は屈析言語の特徴として語の屈析(言語変化)を伴って主体の直接的表出が行われることが多い。従って、日本語の主体的表現の語と英語のそれとは直接的に対応しないことが多く、遂語的翻訳は困難である。そこで、日本文に表わされた話者の認識を解析するに当たって、話者の主観的感情や意志を分類し、与えられた日本文の主体的表現の部分が、どのような感情や意志を表わしているかを判断する。この過程で、もとの日本文は平文に変換される。平文は主体的表現を抽出したあとの客体的表現である。主体的表現情報は目的言語の主体的表現に訳出できる範囲の分解能と精度で分類すれば良い。このため、その他の情報は客体的表現の構造を示す情報として保存し、多段変換の枠組みを経由して目的言語に変換するものとする。具体的には変換対象となる客体的表現には、文要素の指示詞とも言える格助詞相当の語が含まれることになる。この客体的表現は次節で述べる多段変換方式によって英語の客体的表現(英語素文)となる。そのあと、既に抽出されている話者の感情や意志が英語素文に対して組み込まれる。この組み込みでは、助動詞や前置詞の挿入の他、種々の語の屈析(変形)が行われる。このようにして、本方式では日本文中から分離された主体的表現情報が英文生成の段階で英文に融合される。
 
 (2)客体的表現の構造の抽象化と多段変換方式
 主体的表現情報を抽出したあとの日本文(客体的表現)には客体のあり方が話者の見方を通して表わされている。客体に対する話者の認識も種々の構造をもち、それが客体的表現の構造に反映しいる。表現の変形が意味を変えること、構造が意味をもち意味と構造を一体化した扱いが必要なことを考えれば、日本語のすべての表現に対応した英語表現をもち、それらを一対一に対応させれば論理的には翻訳の近似度は向上するが、そのためには無限の数の表現の収録が必要となり工学的には困難である。そこでこの矛盾を工学的調和させるためここでは構造と意味の結びつきの強弱に着目して構造を以下の3段階に抽象化し、各レベルに応じた構造の変換方式を考える。
 @ 特殊的認識構造(慣用表現変換方式)
 ことわざ、慣用句、熟語など複数の語から構成される表現で一語一語の意味からだけでは表現の意味が説明できないもの、言語特有の固定的いいまわしを言う。通常日本語の慣用表現と呼ばれるもののほか、日本語の二語以上の表現が英語の一語に対応するもの、訳出時に英語の慣用表現に対応させるのが望ましい表現を含む。このような特殊的認識構造は要素合成方式では翻訳が特に困難であり、日本語と英語の構造を対応させた慣用表現変換規則によって文構造のもつ意味をもそっくりすくい取った変換を行う。特殊的認識構造では特定の複数の単語が用いられるため、このパターン対辞書は該当する単語の組に対してエントリーが設定され、日本語表現の中にその組み合せが現れたときは適用条件の許す限り優先的に適用される。
 A個別的認識構造(意味的結合価パターン変換方式)
 特殊的認識構造よりも若干汎用的な認識構造を言う。具体的には特殊的認識構造が二語以上の語の字面が固定されるものであるのに対して、個別的認識構造は二語以上の組み合された表現のうち一語の字面(見出し語)が固定され、他の語はその語の単語意味属性に制約をもつものを言う。用言の字面を固定した場合はその用言と結合する文節のもつ助詞の字面と名詞の意味属性が規定される。このような個別的認識構造を捉える枠組みとしては、格文法の方法や結合価文法の方法が考えられるが、用言と結合する文節が深層格として抽象化されず、結合の手として助詞が明示される点が格文法と異る結合価文法の特徴であり、文構造を個別的に捉えるのに適している。
 ここでは結合価文法に意味的制約を加えた意味的結合価文法を用いる。意味的結合価パターンでは、結合価文法の方法に比べて各文節に対する精密で排他的な意味属性体系に支えられた個別的制約条件をもつことによって、深層的格カテゴリーでは分類できない文構造の持つ意味をも英語に対応させることを可能としている。変換用辞書ではこのような日本語の個別的認識構造に対応する英語の認識構造が対にして登録されるが、英語側の記述では日本語の見出し語に対する英語訳語のほか文要素の語順、それにつく前置詞などが指定されるため、日本文の構造のもつ意味を英語に写し取ることができる。パターンの作成に当たっては見出し語の語義毎にパターンを作成する事が必要であり、またそのうちどのパターンを適用するかを一意に決定するためには単語意味属性体系を十分精密に決定する事が必要であるが、見出し語毎に複数のパターンが対応する構造であるため、変換規則相互の矛盾性のチェックが原則として不要であり、変換規則を容易に成長させることができる。
 B汎用的認識構造(汎用パターン変換方式)
 上述の2つの方式では特定の語もしくはその組み合せに着目して表現の構造をパターン化して捉えているのに対して、ここでは語の字面は特定せずある文法的もしくは意味的カテゴリーの語のグループ毎にパターンを対応させることを考える。例えば動詞を瞬間動詞、継続動詞などに分けたり、「だ文」(「AはBだ」の形式の文)をA=Bの場合とA≠Bの場合に分けるなどにより、それぞれのパターンに応じた変換規則を設ける。このような方法は語の字面を固定しない意味で前述の2方式に比べてより抽象的で汎用的な方法と言うことができる。
 
 以上の3段階からなる多段変換方式においては、特殊性の高い表現パターン程近似度の良い訳文が生成されるから、慣用表現変換、意味的結合価パターン変換、汎用パターン変換の順に優先して変換が行われる。パターン辞書の不備によって該当する慣用表現パターンや意味的結合価パターンの無いときは汎用パターンが用いられるため、翻訳品質は低下するが、パターン辞書が完備するにつれて翻訳の品質の向上が期待される。
 
6.1.3 多段翻訳方式の構成
 多段翻訳方式は図38に示すように、主体的表現/客体的表現分離融合方式と客体的表現に対する多段変換方式の2つの部分的方式を組み合せた翻訳方式である。
 本方式では図39に示す人手翻訳のプロセスと類似の手順で翻訳が行われる。すなわち、人手翻訳では翻訳者は与えられた表現に結びつけられた話者の認識を日本語規範に照らし合せて追体験し、話者の目から見た客体のあり方とそれに対する話者の直接的感情や意志を知る。これに対して本翻訳方式では客体のあり方は日本語素文(客体的表現)、話者の感情や意志は主体的表現情報として分離される。次に人手翻訳では客体のあり方の英語の枠組みの中での捉えなおしが行われ、同時に主体のあり方の融合が行われるが、本方式では客体的表現のもつ意味が3段階の変換からなるパターン変換によって英語の枠組みの中に写し取られ、最後にそこで得られた英語素文と主体的表現情報が融合されて、目的の英文が生成される。
 
6.1.4 多段翻訳方式の特徴
 多段翻訳方式の狙いが、話者の認識に焦点を合わせ、主体と客体のあり方を解析し、文構造のもつ意味を失わないように英語に変換することであることは既に述べた。ここではその他の特徴を示す。
 
(1)日本文等価的変換の必要性
 特殊的認識、個別的認識構造、汎用的認識構造の順に、意味が正確に捉えられることを考えれば、翻訳の品質を上げるには慣用表現辞書と意味的結合価パターン辞書を拡大し、中でも慣用表現の適合率を上げれば良いことになる。しかし使用頻度の少いパターンをむやみに増やすことは不要な多義を発生させる点と処理の負荷を増す点からも必ずしも好ましい事ではない。そこで英語の表現の選択において訳し分けの必要な範囲で日本語のパターンを縮退させパターン数を絞ることが大切と考えられる。このようにした場合、特に意味的結合価パターンの適合率を上げ、汎用パターンへの流れを減少させるためには日本語内での以下の表現の縮退や書きかえが有効と考えられる。
 第1は漢字表記、かな表記や送りがななどのゆらぎを取るため、システムの標準表記に合せて入力文を変換するものである。第2は主体的表現情報を抽出したあとの客体的表現をパターン辞書の登録情報を比較し易くするものでさ、特に複数の助詞等を組会わせた連語的表現など英文の表現を変えない範囲で、代表的な助詞的表現に縮退させるものである。第3は英語を意識した日本語内の表現書き換えである。例えば、「しか〜ない」→「だけある」、「バスに乗って行く」→「バスで行く」などの書換えが対象となる。
 
(2)解析と変換の融合
 本方式では日本文解析は慣用表現変換規則、意味的結合価パターン変換規則の適用可能な構造を発見すること、もしくは抽出することを目標に進められる。従って、解析処理の中でこれらの辞書を参照し、適合するパターンはすべて取り出され、それを用いた解釈が実行される。この解釈においては、適合したパターンのもつ文要素は分解されず、一まとまりの構造体として扱われる。日本語パターンは英語パターンと対になっており、適用される日本語パターンの決定は即ち生成する英語パターンの決定を意味する。従って本方式では、日本文の解析処理と日英変換処理が融合したプログラム構造となる。
 以上から、本方式は解析、変換の融合した融合方式もしくは人工知能型翻訳方式と類似した方式であると言うことができる。
 
(3)多義解消効果
 解析の多義は求める分解能の割に使用する情報の少いことから生じる。文法的情報だけでは翻訳処理で生じる多義の解消は困難であり、従来意味的情報として単語の意味属性を2単語間の関係解析として用いる方法が考えられている。これに対して本方式では単語の意味と文構造のもつ意味とが一体化された種々のパターンを持っており、これが解析の段階で使用されることによりさらに多くの多義が解消できるものと期待できる。文要素間の結びつきがパターンの中に示され、複数の文要素が一体化して扱われるため、係り受け関係の解析では複数の要素間の関係が同時に決定され、訳語の選択ではパターンから直接訳語が与えられたり、排他的な意味的属性の制約から訳語が決まるなど不要な多義の増大が防止される。重文、複数のような用言間の文要素の取り合いにおいても、パターンの構成条件から文要素の係り受け先を絞り込める効果が期待される。
 
(4)変換規則の相互独立性とチューンアップの容易性
 慣用表現変換規則および意味的結合価パターン辞書はいずれも万単位の規則を持つ事になるが、適用範囲が特定されている。少くとも異る見出し語のパターンは相互独立と考えて良いため、パターン内の相互依存性は小さい。即ち、一部の規則の変更が他の規則との矛盾を発生させる可能性は同一の見出し語をもつパターンに限定されるため、変換辞書のチューンアップが容易となる。従って、現存する文章の翻訳実験によって不良パターンの改良、不足パターンの追加が比較的容易に行える。
 
6.2 日本語会話処理における意味理解方式の例
 
6.2.1 意味理解の定義と処理のプロセス
 既に5、6節で会話処理における意味理解の必要性について述べた。
 従来意味処理の研究や意味理解の研究と銘を打った研究が沢山行なわれているが、意味の定義すら明確でない場合が多い。意味は対象と認識と表現の関係であることは既にのべたので、ここでは意味解析と意味理解を区別して定義し、その処理の方法を考える。
(1) 理解する事の意味
 一般に話者の言っている事を理解するとは概念的に言えば、話者の表現の内容を追体験する事であると言える。従ってここでは話者の表現した内容に同意するか否かは理解に含めないものとする。追体験は読者が読者の立場に立って実行されるものであり、その限りにおいて読者自身の内容の是否に関する判断は入らないからである。
 さて、話者の表現の内容を追体験をするためには、話者が対象としている世界について、読者が一定限の知識を共有することが必要である。読者は自己の世界の中に話者と共通の部分を見つけ、表現の内容をそれと対応づけ表現の構造に合わせて、自己の世界を組み立てていく。話者の認識の中に構築されていた世界と、読者が表現に基いて構築した世界は必ずしもすべてが同じとは言えない。話者の頭の中の世界が表現に結びつけられるときは、言語規範が媒介となるため、適切に媒介されたものは表現に固定化されるが、媒介されていないものは表現には固定化されない。読者は表現に固定化された話者の認識を再び言語規範を手がかりに再現するため、話者の世界と読者の世界の相違は生じる。ここでは、話者の認識の中で言語表現に固定化された内容の読者の精神への再現をもって追体験と考える。 今もう一度、言語表現の生まれる過程を考えると話者は対象世界のあり方を話者の認識の中で概念化し、対象の概念化した世界を思い浮かべる。次にこれを言語の約束に従って表現の一つ一つに対応させ、表現を形成する。読者の追体験のプロセスはこれと丁度反対のプロセスとなる。すなわち、言語表現が与えられると言語の約束と自己の世界知識を用いて、表現の表わす概念化された対象を一つ一つ思い浮かべ、表現の構造を手がかりにそれを立体化して、話者の認識の世界を自己の頭の中に再現する。この再現された概念的世界から話者の見た対象のあり方を推定する。
 従って、理解する事は、言語表現に媒介された話者の認識構造を読者が自己の頭の中に再構成する事であると言える。このような再構成のプロセスでは、対象に関する知識が必要であり、読者は自己のもつ世界の知識と対応ずけることによって、話者の世界を作り上げる。計算機によりこれをシミュレートするには、計算機側に話者と共通する世界の構造的知識を持たせ、表現と世界の部分との対応関係をとって、それをもとに表現のもつ世界を再構成することが必要である(図40)。
 以上から、工学的には意味理解とは、計算機内の世界モデルと表現との対応づけを行い、それに基き、表現のもつ世界の構造を再構成することであると言うことができる。
(2) 意味解析と意味理解
 言語処理における意味理解迄のプロセスを構文解析、意味解析、意味理解に分けて考える(図41)。構文解析は表現の続語構造を明らかにするプロセスであり、日本語で言えば表現の入れ子構造を捉え、それぞれの要素間の関係を明らかにすることである。次に意味解析は語義解析のこととする。意味が認識と表現の結びつきであることを考えれば、語義は文法的約束の範疇に属するため、正解には意味とは言えないが、次のステップの意味理解との区別を行うため、これをもって意味解析とする。なお、句や節や文の場合もその表わすものに関する約束としてどの約束が用いられているかを単語の場合に習って句義解析、節義解析、文義解析と呼び、これらも意味解析に含めるものとする。
 最後に意味理解は、言語表現と読者(計算機)のもつ世界モデルとの対応づけおよび、それに基く世界の再構成であるとする。読者のもつ世界モデルの部分に、表現がそっくり対応づけられるときは、再構成は不要であり、世界モデルの対応する部分の抽出におきかえられる。なお、言語表現に表わされる世界は、話者自身を含む世界であり、計算機内に表現した世界モデルとの対応をとるためには、話者自身の感情や意志の表わされた主体的表現と客体のあり方を表す客体的表現を分け、客体的表現と計算機のもつ世界モデルの間で照合することが必要である。
 
6.2.2 知識のモデル化
 
(1) 概念から知識まで
 世界知識を持ち込むために世界モデルを設定しようとしたが、世界モデルで世界知識を表わすには、知識とは何であり、それはどう表現できるかについて考えてみる必要がある。 一般に知識は認識の一形態であると考えられる。このことを理解するために、§3.1と一部重複するが、概念と判断と事実の関係について考える(表1)。哲学的に言えば概念とは対象に関する個別性を捨象し、普遍性を抽象して取り上げられた認識と言うことができる。これは言語では語義として定義される。次に、このような概念と概念の間の能動的な結合と構造化が判断である。言語では叙述や判断の主体的表現によって、この判断が表現される。判断の中には客観性のあるものもあり、主観的で疑わしいものもある。判断の中で、ある対象世界の中で真であるような個別的な現象に対する判断が事実と言われる。普遍的で真なる判断は真理である。知識は広い意味ではこの両者の結果から構成される。事実と知識を分けて用いる場合は、知識とは何らかの法則性のもとに整理され体系化された認識と言う意味で、普遍的判断の結果の集合を言う。
 
(2) 知識のタイプ
 知識が認識の一形態であり、何らかの法則性のもとに整理され体系化されたものであることを考えれば、体系化の程度によって認識と同様のレベルに分けて捉えることができる。すなわち、ここでは、認識を現象論的知識、実体論的知識、本質論的知識の3レベルに分けて考える(表2)。現象論的知識とは現象に関する断片であり、個別的判断の結果と言うべきもので、知識処理で言えば事実に相当する知識である。次に実体論的知識はある事象に続く他の事象の記述のレベルで、事象間の関係の認識レベルである。言い換えれば、経験的事象間の相互関係の認識であり、このレベルで原因、結果の関係の認識が含まれるようになる。最後の本質論的知識では原因、結果の集合がより一般化され、諸実体の相互作用の法則性の認識に至る。自然科学で言う自然法則とか、日常生活の経験に基く格言などはこのレベルの知識である。
 
6.2.3 言語から見た世界モデル
 
(1) 世界モデルの構成要素
 言語が捉える対象世界の構成は実体、属性、関係の3種類に分けられる。
 実体は必ずしも物理的存在である必要はなく、観念的なものであっても良い。また通常実体は立体的で構造をもっている。このような実体は言語では名詞によって表現される。実体には種々の側面があるため、どの側面からとり上げるかによって、使用される名詞も異ってくる。また、実体の構造に対応し、名詞間も構造的な関係をもつ。
 次に、属性は実体の属性と属性の属性に分けられ、実体の属性は動的属性と静的属性に分けられる。動的属性は言語では動詞によって表現される。用言のタイプをみれば、動的属性もさらに分類できる。静的属性は形容詞もしくは静詞(形容動詞の一部)で表現される。属性の属性は副詞によって表現される。なお、言語は話者の認識を表わすものである
ため、属性が必ずしも属性として表現されるとは限らない。属性を属性として表現するときは動詞、形容詞、静詞などが用いられるが、これを固定化して捉えると、「行き」、「帰り」、「美しさ」、「きれいさ」などのように属性も名詞で表現される事に注意が必要である。
 最後に関係である。世界モデルの構成要素としての関係には「親子」、「兄弟」、「上下」などの関係があるが、いずれも名詞で表わされ、特に関係である旨を明示するため「親子関係」、「兄弟の関係」などのように「関係」をそえて使われることが多い。
 
(2) 世界知識の分類
 世界モデル構成要素としての関係は名詞扱いとなるため、ここでは簡単のためこれを実体の中に含めて考えると、世界知識は@実体と属性の関係、A実体と実体の関係、B関係と関係の3種に分けることができる(図43)。これらの関係はいずれも言語では名詞や動詞などを組み合せた表現の形で表現される。即ち言語では、知識は表現の構造に乗せて表現される。
 知識のレベルから見れば、関係の関係は明らかに実体論的知識レベル以上の知識を表わすが、実体と属性の関係や実体と実体の関係で表わされる知識が現象論的レベルにとどまるとは言えない。実体も属性も、既に述べたように、捉え方に種々のレベルがあり、現象論的レベルの知識を表現するときは、実体や属性は対象の具体的で個別的な側面で表現されるが抽象論的レベルの知識を表現するときは、対象を一般化して抽象化し対応する名詞や用言が用いられる。すなわち、知識は形式的にみれば3種の関係によって表現されるが、この関係の種別と知識のレベルは必ずしも対応しない。知識のレベルを考えるときは、実体と属性の抽象化の程度をも加えて3種の関係を細分類することが必要である。
 
(3) 世界の表現モデル
 以上の考えに立てば、言語から見た世界のモデルWは
         W=(S,A,R)
但し、Sは実体、Aは属性、Rは関係で、
         S ={A,A…} 
         A ={a,a…} 
         R ={R,R,R} 
         R={r1R(s,a)} 
         R={r2R(s,s)}
         R={r3R(r,r)}
で表わすことができる。ここでs,a,rはそれぞれS,A,Rの部分集合で、r1R,r2R,r3Rの定義される領域を示す(図44)。
 このモデルは知識Rを表わす枠組みを示したものである。実際の知識はr1Rの真偽値として表現される。例えば、「丸」、「三角」、「四角」の3種の積木の世界モデルで言えば、「上下関係(丸、四角)」は、丸と四角の間には上下関係が持てると言う事、すなわち対象とする世界に対するメタ知識を表しており、「上下関係(丸、四角)=T」は対象世界における事実としての知識を表わす(図45)。
 
6.2.4 会話処理のプロセス
 
(1) 理解に必要な知識
 言語表現の意味理解では、表現された内容の真偽は問わないことは既に述べた。表現内容の真偽を問うことは、話者の認識の中にある世界を読者認識の世界と比べその相違点を抽出することであるが、理解では話者の認識の世界を読者の認識の中に別の世界として再構築できればよい。従って、理解をするためには読者の認識の中の世界のメタ知識の助けを借りればよいことになる。すなわち、話者の表現内容を解するには、話者の表現で用いられる部品材料の知識が必要と言うことになる。部品材料から世界を構成する情報は言語表現そのものと言語知識である。
 ところで、世界を構成する部品材料は、言語表現の対象とする世界の構成要素のことであり、具体的には実体の集合、属性の集合、関係の集合(要素としての)が材料である。但し、関係の定義域も関係に付随するものとしてメタ知識に含める。
 以上から、言語理解に必要な知識は、前節で示した世界モデルの定義情報と言うことができる。
 
(2) 会話処理のプロセス
 会話処理では話者の入力文に対して、意味理解した上で、話者の表現の内容とシステムの持っている具体的知識との照合を行い、必要なアクションをとってレスポンスする(図44)。理解以降のプロセスは、ここでは行為としてまとめて考える。従って、行為の中には話者の言っている事の真偽を確かめる行為や、話者の意志に従って検索したり、予約したり、ロボットの手を動かしたりする行為が含まれる。
 このようなプロセスを実現するためには、対象とする世界の知識を理解に必要な知識と、行為に必要な知識に分けて整理することが必要である。今、データベース検索を対象とする会話処理の場合を考えると、まず、扱うデータベースがどのような世界を対象としているかを見定め、その世界を構成するメタ知識を世界モデルとして定義する必要がある。このメタ知識と照合して言語表現の理解が行なわれる。次に、世界モデルに定義された関係の集合を実体、属性、関係に適用して真偽値の集合を作成し、それを行為の対象知識としてデータベース化することが必要である。既存のデータベースでは、真偽値は既に与えられており、適切なインターフェースをとれば良いことになる。
 
(3) 世界モデルを用いた理解のプロセス
 世界モデルを用いた理解のプロセスの例を図45に示す。図では構文解析と意味解析のプロセスも合せて示した。
 構文解析では文の統語的構造が出力され、意味解析によって、語義、句義などが決定される。語義の解析においては世界モデルによって対象とする世界の構成要素が定義されているため、それを参照すれば、多義を絞ることができる。次に、意味理解では、世界モデルに表現された対象間の関係のメタ知識を参考にしながら、話者の表現で表わされた世界を再構成する。表現の表わす世界があらかじめ定義された世界モデルの部分に一致するときは、そのまま一致する部分を抽出して来れば良い。当面、世界モデルと話者の世界に不一致の部分のあるときは、理解のプロセスを実現するのはむずかしそうなので、話者はあらかじめ定義された世界の部分についてのみ表現しているものとしよう。不一致の部分は問い返すものとする。すると、文を理解するためには、その文と対応する世界モデルの部分を抽出すれば良く、複数文の内容を理解するためには、一つ一つの文で参照された部分を重ね合せて、一まとまりの部分を抽出すればよいことになる。
 これらの結果、意味理解処理の出力として、話者を含む表現の構造と、表現の表す対象世界の構造がセットになった出力が得られる。この結果から行為に進むには、さらに意図構造を抽出して、行為モデルを参照し、個別の行為シーケンスを生成していくことになる。
 
7. あとがき
 最近、自然言語処理の研究が盛んで、新らしい方式や技術が次々と提案されているが、自然言語は広大で奥行きも深く、現実に役立つようなレベルにある技術は少ない。方式や技術のもつ限界を突破するには、原点に辿ってそれらの方式や技術の基礎となっている考え方に反省を加えることが必要と思われる。そこで、従来の自然言語処理の研究の基本的な考え方をみると、その殆どすべてが生成変形文法の思想的流れの上に考えられていることが分る。この資料では、従来の研究で金科玉条ともされているこの考えにこそ大きな誤りがあり、それが言語研究発展の障害の1つとなっているものと考えて、科学的方法論を追求する立場から言語処理の考え方を述べた。科学的方法論から考えるとき、従来の形而上学的言語思想に代るものは、言語を自然と同様、過程の複合体として捉える言語過程説があげられる。従って本資料では、言語過程説の立場から言語をながめ、新らしい言語観の枠組みの中で言語処理の方法論を考えるよう努めた。科学的な自然言語処理の方法論の確立と言う大きな課題からみれば、本検討は小さな一歩である。また、言語処理論から処理の方法論に展開する過程で踏みはずしを行っているところがあるかもしれない。今後の研究の発展のため、読まれた方はぜひとも疑問点などを教えて頂きたい。その中にこそ今後の発展の鍵がひそんでいると期待されます。
 最後に、我々自然言語処理研究グループが経験的に蓄積した教訓とも言えるべき事項を図46に示す。これらは、研究の過程で誰ともなく言い出した事柄であるが、このように書き出してみると、本資料で検討し、提案した内容と相通じる部分が多いように感じられると思う。今後も具体的な課題に対する実践を通じて、本資料で述べた考え方をブレーグダウンし、科学的方法論の確立に努めて行きたい。
 
[謝辞]
 おわりに、日頃御指導頂く自然言語処理研究部寺島部長を始め、言語過程説を実践論 の立場から討論して頂く宮崎主任員、白井主任員ならびにそれぞれの課題研究を通じて 貴重な実践の例を示して頂いた自解・自話グループの各位に感謝する。
 
[参考文献]
1.自然言語処理の考え方関連
 (1)池原:科学的な言語理論の構築に向けて、経過資料第12330号
 (2)池原:知識と言語に関する認識論、経過資料第12599号
 (3)池原:日本語と英語の認識構造、経過資料第12886号
2.日英翻訳技術関係(対外発表)
 (1)池原、宮崎、東田:日英翻訳システムALT−J/Eの設計思想、情処第33回全大
   6J-1 
 (2)宮崎、白井、林:日英翻訳システムALT−J/Eにおける日本語解析技術、情処   第33回全大、6J-2
 (3)林、奥、石崎:日英翻訳システムALT−J/Eにおける日英変換技術、情処第33   回全大、6J-3
 (4)岡本、河合、横尾:日英翻訳システムALT−J/Eにおける英文生成技術、情処   第33回全大、6J-4
 (5)林、横尾:日英翻訳システムALT−J/Eにおける日本文解析制御方式、情処第   34回全大、5W-1
 (6)河合:日英翻訳システムALT−J/Eにおける様相・時制の処理、情処第34回全   大、5W-2
 (7)石崎:日英翻訳システムALT−J/Eにおける日本語名詞複合語の解析・翻訳技   術、情処第34回全大、5W-3
 (8)横尾、林:日英翻訳システムALT−J/Eにおける名詞句解析技術、情処第34回   全大、5W-4
 (9)白井:日英翻訳システムALT−J/Eにおけるテーブル駆動型日本語文節間係り   受け解析法、情処第34回全大、5W-5
 (10)奥、林:日英翻訳システムALT−J/Eにおける慣用表現変換技術、情処第34回   全大、5W-6 
 (11)石崎:日本語複合名詞の解析、情処第35回全大、1T-1
 (12)横尾、林:日本語埋め込み構造の解析、S62 AI学会第1回全大、7-2
 (13)林:結合価構造に基づく日本文解析、情処NL研究会87-NL-62
 (14)奥:日本語慣用表現の分析と日英翻訳への適用、情処NL研究会、87-NL-62
 (15)池原、宮崎、白井、林:言語における話者の認識と多段翻訳方式、情処論、Vol.28、   No.12、PP.1269〜1279
 (16)池原:Multi-level Machine Translation Method, Future Computer Systems
3.日本語会話処理関係(対外発表)
 (1)中川、加藤:日本語データベース検索システムにおける意味理解方式、情処論、61   年11月号
 (2)中川、加藤:質問応答における話題管理方式について、情処論、62年9月号
 (3)加藤、中川:自然言語インタフェースシステムを対象とした意味表現言語、情処論   (投稿中)
 (4)加藤、中川:自然言語インタフェースシステムにおける意図の把握と話題の管理、   情処論(投稿中)
 (5)加藤、中川:日本語質問応答システムにおける知識ソースの利用方式、情処第33回   全大、61年10月
 (6)加藤、中川:質問応答における意図の把握と話題の管理、情処研報 86-NL-58、61年   11月
 (7)中川:日本語データベース検索システム、機械振興62年11月号