首藤公昭*、小山泰男**、高橋雅仁*、吉村賢治*
*福岡大学工学部電子情報工学科、**エー・アイ・ソフト(株)
*{shudo,takahashi,yoshimura}@tl.fukuoka-u.ac.jp、 ** koyama@aisoft.co.jp
概 要 :
フルテキスト検索や用例に基づく機械翻訳において文や句の意味的な類似度を判定する技術の重要性が認識されている.また、この技術はこれからの種々のNLP研究においても重要になるものと思われる。しかし、これまでの研究では、言語表現の
類似性を、殆ど概念語間の意味の類似性だけに基づいて捉えるにすぎず、機能語や機能表現が与える文意の枠組みの類似
性は考慮されていない。本論文では,言語表現の依存構造の類似性および助述的意味の類似性を考慮して、言語表現の類
似度を求める一般的な方法を提案する.
キイワード: 類似度、距離、依存構造、関係表現、助述表現、フルテキスト検索
Kosho SHUDO*, Yasuo KOYAMA**, Masahito TAKAHASHI*, and Kenji YOSHIMURA*
*Department of Electronics and Computer Science, Fukuoka University,
**aisoft co.
*{shudo,takahashi,yoshimura}@tl.fukuoka-u.ac.jp、 ** koyama@aisoft.co.jp
abstract :
It is important for the advanced full-text information retrieval
system or the example-based MT system to recognize the
semantic similarity of the linguistic expressions, i.e. sentences, phrases.
We present in this paper, a new framework for the
computer recognition of the semantic similarity of expressions of natural
languages, which is based on their dependency
structures. It is also characterized by the fact that not only the
similarity of conceptual words but also the similarity of
functional expressions play important roles in it.
Key Words : Similarity, Full-Text Retrieval, Dependency Structure, Relational Expression, Auxiliary Predicative Expression
用例に基づく機械翻訳や全文検索においては文や句を検索キーとして一致あるいは類似する文や句を検索する技術が求められる.また,文意を損なわずに文を圧縮するためにも文や句の意味的な類似度を判定する技術が必要となる.近年,このように文や句の類似度に基づく検索の重要性が認識されている.これらに関しては,従来,大きく2種の立場から研究が行われてきた.一つは言語表現における,格(case)関係などの依存関係を考慮して意味的類似度(あるいは意味的距離)を判定する研究である.そこでは,2文において同じ格をなす概念語間の類似度を,あらかじめ定めておいた概念語の意味分類における距離から計算し,その重み付きの和で文間の類似度を定義する場合が多い.他の一つは言語表現の言語的構造を重視せず,単なる単語の列として類似性を考える研究である.前者の例としては,文献(1,2,4,10),後者の例としては文献(3,11)が挙げられる.たとえば,文献(1)では大量のビデオデータの中からテレビ番組編集に用いるビデオデータを各データに付された簡単なインデックス文に対する類似度検索によって選び出す試みが報告されている.また,文献(2)においても
あらかじめ構文解析が施され,文の構文情報が付記された被検索文に対して句や表現パタンをキーとして類似度検索を行う手法が報告されている.文献(4)では,[名詞+「の」+名詞]の形をした名詞句の間の類似度判定手法が述べられており,いずれの報告でも検索キー文と被検索文の意味的類似度判定は,まず,概念語間相違度判定を国立国語研究所編纂の「分類語彙表」など,階層的概念分類を用いて求め,次に概念語間距離の重み付き和として句と句の意味的距離を求めるという点で共通している.いっぽう,文献(3)は文章を要約するための知識を自動獲得するため,あらかじめ用意された原文とその要約文との間の,類似度を考慮した単語列DPマッチングを行い,マッチングの取れない部分を要約に際して省略された単語列と考えて抽出する手法を提案している.単語間の類似度としては文字面の一致,品詞の一致,概念語と機能語の違い,概念語に関してはシソーラスによる意味の類似性をパラメータとした計算式で求めている.しかし,これらのいずれの研究においても機能語や機能語相当表現間の類似性は取り扱われていない.すなわち,概念間の関係を指示する格助詞,接続助詞およびそれらに
相当する連語(関係表現と総称される)の類似性や時制,相,話者の態度,判断,否定等,広義の様相情報を与える助動詞,終助詞およびそれらに相当する連語(これらは助述表現と総称される)の類似性が扱われていない.たとえば,「社会情勢を分析する」という文と「社会問題について論じる」という文や,「大学の教育」という句と「高等教育機関における教育」という句における関係表現「を」と「について」の類似性や「の」と「における」の類似性を捉えることができない.また,「教授が述べるにちがいない」と「先生が話すかもしれない」という2文において,助述表現「にちがいない」と「かもしれない」の類似性についても同様である.この様な関係表現や助述表現の与える情報は文の意味情報として重要であり,検索においても重要な役割を演ずる.たとえば,関係表現は依存構造によって文の構文・意味的な枠組みを規定するものであり,それらの類似性を捉える事は,検索対象とする言語表現の構造の多様性と検索精度とを高めることに繋がる.また,助述表現は,文書から著者の判断や態度を表明している文を検索する際に必要であり,文書や談話の構造解析,話の流れを捉える処
理などにおいても不可欠である.本研究では,表現内の依存構造の類似度および助述的意味の類似度を考慮する立場で言語表現の類似度を求める方法を提案する.言語表現の構文,意味構造上の類似性を考察する際,句構造より,概念間の依存関係からなる依存構造に基づいて比較する方が好ましい.本研究は,言語表現の再帰的な依存構造によって類似性を捉えようとする点に特徴がある.また,本研究は,連語を含む関係表現,助述表現の収集・分類が行われていること,および,入力単語列がこれらの関係表現,助述表現を単位とした拡張文節単位に分かち書きされ,分かち書きされた各単位の文法・意味機能も判明していることを前提とする.
自然言語における句として文法・意味上受容できる単語列を本稿では言語表現と呼ぶ.言語表現の構造として,いわゆる「句構造(Phrase
Structure)」ではなく,意味をより直接的に反映する「関係構造(Relational
Structure)」を考える.「関係」としては「依存」と「並列」が代表的であるが,本稿では依存関係(Dependency
Relation)による構造の類似性について考察する.言語表現の基本構造は,主要素(governor)と,主要素に対して依存関係を持ついくつかの副要素(dependent)との組を,それぞれの依存関係と共に示すことによって表わすことができる.各副要素はそれ自身が主要素となって依存構造を担っていてもよい.形式的には言語表現の骨格は次のような
DS (Dependency Structure=「依存構造体」)として定義できる.
【1】 概念語(内容語)はそれ自身,DSであり,また,その主要素である.
【2】 C1 ,C2 ,…,Ci ,…,Cn (n>1) が,それぞれ DSであり,特に,Ciが概念語である時,C1
,C2 ,…,Ci-1 , Ci+1 ,…,Cn の各主要素が副要素となって,Ci に依存する(Ciを修飾する)関係を持つならば,DSの列,C1
C2 … Ci … Cnは,Ci を主要素とするDSである.
日本語では原則としてi=n であり,依存関係は各副要素に後置された関係表現列によって表わされる.従って,日本語の言語表現の骨格は【1】と次の【2】’によって規定される.
【2】’C1 ,C2 ,…,Cn (n>1) が,それぞれ DSであり,Cnは概念語である時, C1 ,C2 ,…,Cn-1 の各主要素が副要素としてCn に依存する(Cnを修飾する)関係を持つ時,列 C1r1 C2r2 … Cn-1 rn-1 Cn は,Cn を主要素とする DSである.ただし,rj はCj が Cnに依存する関係を表わす助詞等の関係表現列である.
従来の日本語の言語表現の類似性に関する研究では,関係表現として格助詞しか対象としておらず,その意味的類似性も考慮していない.本稿では文の意味を重視する立場から,関係表現として,まず,「における」,「によって」などの助詞相当の連語を広範囲に取り入れた日本語依存構造の意味的類似性について考察する.
現実の日本語文では格助詞,接続助詞をはじめとして数多くの関係表現が使い分けられている(1).ここでは,関係表現の機能を近似的に3項組〔g,b,s〕で表わす.gは関係表示の文法的側面を表わし,図1に示す4種類の機能のいずれかを指定したもの,bは関係表示の意味的側面の基本部分を表わし,概略,図2のような約160種のクラスからなる分類によって与えられる(6).sは関係に添えられる付加的意味で,図3の分類で与えられる(6).これらに基づいて関係表現間の類似度を定義する.
図1で,PN関係とは,述語(P)を副要素,文末側の名詞(N)を主要素とする依存関係を意味する.PP,NN,NP関係についても同様である.たとえば,「開発するための調査」における「ための」は「開発する」=P,「調査」=NとするPN関係を表示する関係表現である.この分類に従い,関係表現a,bの文法的類似度Srg(a,b)をa,bが図1の同一分類に属するときSrg(a,b)=1.0,そうでないときSrg(a,b)=0.0 とする.
図2の分類に基づいて関係表現 a,bの基本的意味類似度 Srb(a,b)を次のように定義する.活用語の連体,連用形は擬似的に関係表現付きとして扱う.
Srb(a,b)=((dcb+1)*2)/(dab+dbb) ;共通上位ノードを持つ時
=0.0
;共通上位ノードを持たない時
ただし,
dcb:図2における表現a,bの共通上位ノードのルートからの距離
dab,dbb:図2における,表現a,bのルートからの 距離
関係表現の意味機能も用法によって異なる場合があり,図2の表現の類は一般には互いに素ではない.たとえば,「僕はお米が食べたい」の「が」は,主要素が「たい」,「欲しい」などの願望の意味を取る時,〈主体〉ではなく〈対象〉の意味を取る.筆者らは約160種の基本的意味に対して,関係表現の多義性を解消するための条件を整理しているが,本稿では詳細を省く(6).ここでは,ある程度の多義解消は形態素解析,構文解析過程で行われているものと仮定する.たとえば,「戦後50年を語る」,「戦後50年について語る」の「を」と「について」の基本的意味類似度は,Srb(を, について)=(1*2)/(2+2)=0.5, 「ビールを買う」, 「ビールだけ買う」では Srb(を, だけ)=(2*2)/(2+2)=1.0とする.
図3に関係表現の付加的意味による分類を示す.ここでは,たとえば,「ご飯も食べる」の副助詞「も」の機能は,文法的機能gとしてNP関係表示,図3の基本的意味bとして「を」と同じく〈対象1〉,付加的意味sとして《添加》からなる3項組〔 NP,〈対象1〉,《添加》 〕で表わされ,格助詞「を」については〔 NP,〈対象1〉,/(null) 〕で表わされると考える.この形式化によれば各関係表現を同一の枠組みで取り扱うことができる.関係表現の付加的意味類似度Srs(a,b)も式(1)と同様に定義する.すなわち,図3の同一分類に属するときおよびa=b=/(null)のときSrs(a,b)=1.0,そうでないときSrs(a,b)=0.0とする.従って,前記の「を」,「だけ」,「のみ」では,Srs(を, だけ)=Srs(を, のみ)=0.0,Srs(だけ, のみ)=1.0となる.
Srg,Srb,Srsを使って,関係表現,a,b間の類似度Sr(a,b)を次式のように定義する.
Sr(a,b)=Lg*Srg(a,b)+Lb*Srb(a,b)+Ls*Srs(a,b)
Lg+Lb+Ls=1.0
Lg=0.5,Lb=0.3,Ls=0.2とした時,たとえば,「開発するための調査」と「開発するために調査する」の「ための」,「ために」の機能はそれぞれ〔PN,〈目的〉,/〕,〔PP,〈目的〉,/〕であり,Srg(ための,
ために)=0.0 , Srb(ための, ために)=1.0 ,Srs(ための, ために)=1.0,従って,Sr(ための,
ために)=0.5*0.0+0.3*1.0+0.2*1.0=0.5となる.また,先の例については,Sr(を,
だけ)=0.5*1.0+0.3*1.0+0.2*0.0=0.8,Sr(だけ, のみ)=0.5*1.0+0.3*1.0+0.2*1.0=1.0となる.
関係表現は複数個連接して用いられることが有る.この様な関係表現列の関係表示機能も単独の関係表現の枠組みで表わすことが出来る.連接の可否は形態素解析ルールで細かく規定されており,連接が許されるものは,たとえば,「において・さえ」のように,3項組で表わすと〔NP,〈場所〉,/〕・〔NP,〈主体〉,《他の強調》〕などである.一般には以下の2種の連接が可能である.
1) 〔g,b,/〕〔g,b’,s〕
2) 〔g,b’,s〕〔g,b,/〕
1),2)いずれの場合も連接結果の3項組を〔g,b,s〕とする合成ルールを設ける.このルールにより,上記の例の「においてさえ」の3項組は〔NP,〈場所〉,《他の強調》〕となる.この様に合成された3項組を用いれば,3.5で述べた方法で,関係表現列ri
とrj の類似度Sr(ri , rj )を求めることが出来る.rが空列の場合はあらかじめ決めておいた〔NP,〈対象1〉,/〕,〔NP,〈時点〉,/〕,〔NN,〈場所〉,/〕などをその3項組として取り扱う.これによって,複合名詞や名詞連続の意味的類似性を規定できる.
従来,概念語間の意味的距離,意味的類似度については分類語彙表などの概念語の階層的意味分類を用いる方法が報告されている(1,2,4,10)
.本論文では,概念語a,bの類似度Sc(a,b)は式(1)と同様の方法で,0.0以上1.0以下の実数値で与えられていると仮定する.
概念語間の類似度Sc,関係表現列間の類似度Sr を用いて,2.で述べた
DS ;A=C1 r1 C2 r2 … Cm と B=C’1 r’1 C’2 r’2 …C’n の間の類似度
Ss(A,B)を次のSs(A,B)で帰納的に定義する.
@(式:丸1)は,末尾の支配概念語同士の類似性が相対的に重要と考える場合を想定し,Q1,Q2の重み付きで副要素群間の類似度と主要素間の類似度を加算することで全体の類似度を与える.また,文節の概念語部同士と関係表示部同士の類似度を重みK1,K2付きで加算したものを副要素間の類似度と考え,これらの総和を最大にする対応を最適としている.B(式:丸3),C(式:丸4)は,副要素間の対応が1:1であること,D(式:丸5)は,対応を漏れなく取らなければならないことを意味する.
たとえば,
文1:「防衛協定のガイドラインに関する会談を29日にワシントンで開く.」
と
文2:「米国において5月に日米防衛に関する指針についての話し合いを持つ.」
との類似度は次の様に求められる.
まず,拡張文節単位のセグメンテイションは,
文1:「防衛協定の・ガイドラインに関する・会談を・29日・に・ワシントンで・開く.」,
文2:「米国において・5月に・日米防衛に関する・指針についての・話し合いを・持つ.」
となる.
最外殻の DSは,
「会談を 29日にワシントンで
開く」 (a)
「米国において 5月に
話し合いを 持つ」 (b)
である.(a),(b)に現れている概念語を主要素とする DSで,概念語数2以上のものは,
「ガイドラインに関する 会談」
(c)
「指針についての 話し合い」
(d)
である.(c),(d)に現れている概念語を主要素とする DSで,概念語数2以上のものは,
「防衛協定の ガイドライン」
(e)
「日米防衛に関する 指針」
(f)
である.
名詞連続相互の類似度は,たとえば文献(11)の方法で求められるが,ここでは
Sc(防衛協定, 日米防衛)=Ss(防衛協定,
日米防衛)=0.4
と仮定する.
Sr(の, に関する)=0.6, K1=Q2=0.6,K2=Q1=0.4, Sc(ガイドライン,
指針)=1.0とすれば,@式(式:丸1)より,Ss(防衛協定のガイドライン, 日米防衛に関する指針)=0.4*(0.6*0.4+0.4*0.6)+0.6*1.0=0.792.ここで,
Sr(に関する,についての)=1.0, Ss(会談, 話し合い)=0.95とすれば,Ss(防衛協定のガイドラインに関する会談,日米防衛に関する指針についての話し合い)=0.4*(0.6*0.792+0.4*1.0)+0.6*0.95=0.92となる.
(a),(b)において,単語間類似度が下記のように求められていると仮定する.Sc(29日,
5月)=0.33, Sc(ワシントン, 米国)=0.4, Sc(開く,持つ)=0.32,Sr(を, を)=Sr(に,
に)=1.0, Sr(で, において)=0.88, ただし,その他の組み合わせで類似度は0.0とする.その結果,Ss(文1,
文2)=0.4*((0.6*0.92+0.4*1.0)+(0.6*0.33+0.4*1.0)+(0.6*0.4+0.4*0.88))/3+0.6*0.32=0.4*0.714+0.6*0.32=0.4776となる.
動詞,形容詞,形容動詞,名詞+「である」など,主要素が述語性の場合には主要素に後置された助動詞等の助述表現列によって話者の判断,時制,アスペクトなどの情報が付加されることがある.
文に添えられる助述表現の意味は,概略,図4に示すように分類できる.
助述表現a,bの意味の類似度Sa(a,b)をどのように定めるかについては議論すべき点が多いが,ここでは,近似として(1)式と同様の方法を提案する.たとえば,
Sa(なければならない, たほうがよい)=Sa(なさい, てくれ)=(2*2)/(3+3)=0.66,Sa(ことができる,
てしまう)=Sa(なさい, よていだ)=Sa(うとしている, にちがいない)=Sa(れる,
そうだ)=0.0,などとする.
助述表現も複数個連接して用いられることがある.助述表現列 ai と a’j の類似度Sa(ai ,a’j )は,たとえば,文献(11)で提案した,単語の重要度を加味したDPマッチングによる単語列間最短距離探索で求める事が出来る.すなわち,助述表現列,「てみる・つもりな・のだ・そうだ」と「てみる・よていだ・とのことだ」の類似度は,Sa(てみる, てみる)=Sa(そうだ, とのことだ)=1.0,Sa(つもりだ, よていだ)=0.5,これ以外の組合わせの類似度はすべて0.0,助述表現の重要度(脱落コスト)は, w(のだ)=0.5,それ以外をすべて1.0と仮定すれば,以下のように求められる.Sa(てみるつもりなのだそうだ, てみるよていだとのことだ)=1−1.5/6.5=0.77.ここで,表現列間距離が,図5に示す表現の対応関係と脱落コストから, 0.0+0.5+0.5+0.5=1.5,表現列間最大距離が両表現列の全表現の脱落コストの総和として,3.5+3=6.5ともとめられている.ただし,ai ,a’j ともに空列の場合,Sa (ai , a’j )=1.0と約束する.述語性の依存構造A1 ,A2 に,それぞれ,助述表現列 a1,a2 が付与されている場合の全体の類似度は,たとえば,次式で与えることができる.
M1*Ss(A1 , A2 ) + M2*Sa(a1 , a2 )
M1,M2 は,文(句)の主要部分である依存構造部と助述部の貢献の割合を定める重みであり,M1+M2=1.0とする.
文の意味をより直接的に反映した構文構造である依存構造にもとずく類似性を考えることは,文の意味的類似性への接近の第一歩である.本稿ではこの様な認識に基づく類似度計算の枠組みを提案したが,まだ,いくつかの課題が残されている.まず,同一あるいは類似の意味が,異なった依存構造で表現される場合の問題である.たとえば,「会談を開く」と「話し合う」,「話し合いを持つ」の意味的類似性,「りんごを3個食べる」と「3個のりんごを食べる」,「学校へ行く」と「登校する」などの意味的同一性は依存構造の異同だけでは捉えられない.これらに対しては,意味を保存した依存構造の変換ルール等を整備しておく必要がある.本稿で述べた類似度判定の基本的な考え方は複合名詞や名詞連続についても依存構造を持つ限り適用可能であるが,これらの依存構造は関係表現で表示されないため扱いにくい.これらの表現における依存の意味を特定する研究も今後の課題である.本稿のモデルでは個々の関係表現や助述表現に重要度の差を付けていない.しかし,たとえば,ある行為が行われる際,行為の方法よりも場所に強く注目したい場合には場所の「で」と「において」の類似
度をより強く全体の類似度に反映させることなどのバリエーションも考えられる.
計算量については,格要素の対応を取る際,最適性の原理が働かないため,能率的なアルゴリズムが考えにくい.細かな意味を捨象できる場合は,式?の再帰性を無視して,最外殻の格要素だけで類似度を近似するなどの便法が考えられる.さらに見かけ上,格要素が重複して現れる場合や並列構造と類似性の関連なども今後に残された研究課題である.
(1) 山田一郎ほか:"インデックス文の類似性に基づく映像検索",第5回国立国語研究所国際シンポジウム第一専門部会発表論文,
1997-8.
(2) 兵藤安昭ほか:"構文付きコーパスの作成と類似用例検索システムへの応用",自然言語処理,vol.3,No.2,1997-8.
(3) 加藤直人:"ニュース文要約のための局所的要約知識獲得とその評価",情報処理学会研究会資料,自然言語処理,6-10,1998-7.
(4) 飯田仁:"人工知能におけるスーパーコンピューティング −言語表現の類似性を利用する自然言語処理技術−(解説)",情報処理,vol.36,No.2,1995-2.
(5) 首藤公昭ほか:"日本語の機械処理のための文節構造モデル",電子通信学会論文誌,vol.62-D,No.12,1979-12.
(6) 首藤公昭:"文節構造モデルによる日本語の機械処理に関する研究",福岡大学研究所報,No.45,1980-3.
(7) 小山泰男ほか:"連語データを利用した仮名漢字変換",情報処理学会論文誌,vol.39,No.11,1998-11.
(8) 田中栄一:"構造をもつものの距離と類似度(解説)",情報処理,vol.31,No.9,1990-9
(9) 佐藤理史:"実例に基づく翻訳(解説)",情報処理,vol.33,No.6,1992-6
(10) 脇田由美ほか:"意味的類似性を用いた音声認識正解部分の特定法と正解部分のみ翻訳する音声翻訳法",自然言語処理,vol.5,No.4,1998-10
(11) 安武満佐子ほか:"関係表現,助述表現の意味的類似度を考慮した言語表現間の類似度判定",福岡大学工学集報,No.63,1999-9