接続助詞「ば」「と」「ても」を持つ重文の接続の意味解析
主査 知能情報工学科 教授 _____________
副査 知能情報工学科 _____________
平成11年2月19日
鳥取大学工学部知能情報工学科
足立 守啓
1. はじめに
機械翻訳などの自然言語処理において、重文の接続の意味を解析することは重要な課題の一つとなっている。接続助詞を含む重文の接続の意味関係は、接続助詞の用法に依存する。従来人間の感覚によって判断してきた接続助詞の用法の意味的曖昧性は、計算機での判断が困難であるため、解析精度を低下させる原因の一つとなっていた。
計算機によって重文の意味を解析するという観点から、解析は重文の表層情報を手がかりに解析することになる。木村は、知覚思考・心理・言語活動・感情・動きなど述語の意味分類などを用いて、「ので」順接複文における意味解析を行う研究を提案し、動詞の意味分類が意味解析に有効であると示した(木村 他
1996)。また、仁田は、助詞「て」の意味解析を行う研究で、動詞の意志性・意味分類・アスペクト・慣用的な表現・同一主体、・無生物主体が意味解析に有効であると示した(仁田 1995)。「ので」、「て」以外の助詞に関して、向仲は、助詞「て」以外の曖昧性の多い接続助詞について従属節と主節の動詞と主体の属性を用いて意味解析を行っている(向仲 1997)。しかし、これらの研究では、判定条件として限られた属性のみを適用しており、あらゆる文体に対処するには限界がある。これに対し井上は、接続助詞「が」を持つ重文の解析において、特定の属性に限定せず判定条件を設定した(井上 他
1998)。だが、将来の機械翻訳への適用を考えた場合、英語との対応を考慮に入れた分類が成されているとは言い難い。
そこで、本研究では、その出現頻度の高さと用法の多様性の割にあまり扱われてこなかった接続助詞「ば」、「と」、「ても」によって接続される重文に着目し、その接続の意味を、主節及び従属節の持つ構造的特徴から、特定の属性に限定せずに解析の判定条件を定めることにより決定する方法を提案する。各々の接続助詞の意味分類は、用法ごとに英語との対応付けにより行い、それぞれの用法に対して主節と従属節の構造上の特徴を調べて、実際に計算機上で判定を行うことを考慮して判定条件を定める。
以下、第2章では、日本文における各接続助詞の種類とその割合及び英文との対応付けによる用法の検証、第3章では今回提案する手法を示す。また、第4章で思考実験の結果と考察、第5章で今回の結論を述べる。
2. 重文に含まれる接続助詞の種類と用法
本研究を行うにあたって、日本文においては一般にどのような種類の接続助詞がどのような形でどれだけの頻度で使われているか、ということが問題となる。新聞記事経済欄1年分(93,075文)を対象として接続助詞の種類、各接続助詞の統計、接続助詞相当語(接続助詞の前後に何らかの助詞、助動詞が付随して成立する語。表1では接続助詞「ば」及びその相当語はまとめて「ば系」語と表記する。)の種類数を調べた結果を表1に示す。なお、新聞記事経済欄1年分93,075文中接続助詞を含む重文は17,242文存在したが、表の統計は一文中に現れた接続助詞の重複分を含む数値である。
表1.新聞記事経済欄1年分中の重文に含まれる接続助詞の統計及び相当語の種類数
接続助詞 |
出現数 |
相当語の種類数 |
相当語の例 |
て系 |
10,015 |
39 |
なくて、られて |
が系 |
4,595 |
94 |
からだが、せるが |
ば系 |
2,006 |
22 |
なければ、ねば |
と系 |
1,396 |
31 |
うと、ないと |
ても系 |
1,043 |
7 |
たくても、れても |
ながら系 |
564 |
10 |
れながらも |
から系 |
316 |
57 |
からこそ、からで |
ので系 |
271 |
18 |
たので、れるので |
で系 |
262 |
8 |
での、べきで |
たり系 |
230 |
7 |
せたり、れたり |
し系 |
141 |
18 |
そうだし、たいし |
てから系 |
130 |
12 |
てからは |
つつ系 |
35 |
2 |
つつも |
ところが系 |
29 |
4 |
によるところが |
のに系 |
27 |
2 |
なのに |
でも系 |
26 |
1 |
でも |
とも系 |
24 |
5 |
れようとも |
たところで系 |
15 |
3 |
たところでは |
だり系 |
13 |
3 |
だりは、だりも |
どころか系 |
9 |
4 |
ないどころか |
ども系 |
8 |
1 |
ども |
ならば系 |
8 |
1 |
ならば |
けれど系 |
7 |
5 |
たけれど |
とすると系 |
7 |
3 |
ようとすると |
や系 |
4 |
3 |
まいやな |
けれども系 |
3 |
2 |
たけれども |
なり系 |
3 |
1 |
なり |
のたび系 |
2 |
1 |
のたびに |
限りは系 |
2 |
2 |
ない限りは |
でから系 |
1 |
1 |
でから |
んで系 |
1 |
1 |
んでと |
合計 |
21,193 |
368 |
2.2 英文との対応による接続助詞「ば」「と」「ても」の接続の用法
接続助詞「ば」「と」「ても」を持つ重文について、英文との対応付けにより用法の分類を行った結果を表2、表3、表4に示す。なお、分類は主に基礎日本語学習辞典(国際交流基金 1986)によった。
表2.接続助詞「ば」の英文との対応付けによる分類
「ば」の意味分類 |
接続の意味 |
例文 |
|
@ |
if |
仮定条件 |
明日雨が降れば、旅行には行きませんか。 |
Will you give up (literally, not go on) your trip if it rains tomorrow? |
|||
A |
when |
時間、発見 |
父はお酒を飲めば、歌を歌いました。 |
My father used to sing when he drank sake. |
|||
B |
must |
必要 |
大学に入るためには、もっと勉強しなければなりませんよ。 |
You must study harder in order to be able to enter a university. |
|||
C |
according to |
話題の出所 |
ラジオの天気予報によれば、午後からは雨が降るそうです。 |
According to the weather report on the radio, it's going to rain in the afternoon. |
|||
D |
the 比較級 |
比例 |
物価が上がれば上がるほど生活が苦しくなります。 |
The more prices rise, the harder it is to make ends meet. |
|||
E |
as well as |
並列 |
上田さんの部屋にはラジオもあればテレビもあります。 |
There's a television in [Miss] Ueda's room as well as a radio. |
|||
F |
should |
提案 |
どんなカメラを選べばいいか教えてください。 |
Please tell me what camera I should choose. |
|||
G |
in terms of |
立場、観点、換言、換算 |
マイルで言えば3マイルになる。 |
In terms of miles,it was three. |
|||
H |
副詞+speaking |
比喩 |
厳密に言えば、それらは同じ種類ではない。 |
Strictly speaking, they are not of a kind. |
|||
I |
talking of |
言及 |
旅行と言えば、君は日光へ行ったことがありますか? |
Talking of travelling, have you ever been to Nikko? |
|||
J |
considering |
考慮 |
年齢を考えれば、彼は若く見える。 |
He looks young considering his age. |
|||
K |
as compared |
比較 |
父親に比べれば、彼は深みに欠ける。 As compared with his father, he is lacking in depth. |
L |
what等 |
疑問 |
私はどうすればいいのだろう。 |
What shall I do? |
表3.接続助詞「と」の英文との対応付けによる分類
「と」の意味分類 |
接続の意味 |
例文 |
|
@ |
if |
仮定条件 |
この道を左に曲がると、駅の前に出ます。 |
If you turn left from this street, you will come out in front of the station. |
|||
A |
when |
時間、発見 |
ふと空を見上げると、飛行機が飛んでいました。 |
When I happened to look up at the sky, there was an airplane flying there. |
|||
B |
must |
必要 |
大学に入るためには、もっと勉強しないといけませんよ。 |
You must study harder in order to be able to enter a university. |
|||
C |
according to |
話題の出所 |
山田さんによると、秋子さんは来月結婚するそうです。 |
According to Mrs. Yamada, Akiko is going to get married next month. |
|||
D |
even if |
逆接の仮定条件1 |
たとえ雨が降ろうと、ハイキングには出かけます。 |
I will go hiking even if it should rain. |
|||
E |
no matter |
逆接の仮定条件2 |
君はたとえ何をしようと、最善を尽くさねばならない。 |
No matter what you may do, you must do your best. |
|||
F |
whether |
逆接の仮定条件3 |
行こうと行くまいと私の自由です。 |
Whether I go or not is for me to decide. |
|||
G |
in terms of |
立場、観点、換言、換算 |
金にすると20ドル分食べたことになる。 |
In terms of money, they ate $20 worth. |
|||
H |
副詞+speaking |
比喩 |
一般的に言うと、男の方が女より強い。 |
Generally speaking, men are stronger than women. |
|||
I |
talking of |
言及 |
旅行と言うと、君は日光へ行ったことがありますか? |
Talking of travelling, have you ever been to Nikko? |
|||
J |
considering |
考慮 |
年齢を考えると、彼は若く見える。 |
He looks young considering his age. |
|||
K |
as compared |
比較 |
父親に比べると、彼は深みに欠ける。 |
As compared with his father, he is lacking in depth. |
表4.接続助詞「ても」の英文との対応付けによる分類
「ても」の意味分類 |
接続の意味 |
例文 |
|
@ |
although |
逆接の既定条件 |
田中さんは、私が呼んでも返事もしませんでした。 |
Although I called to [him], [Mr.] Tanaka didn ’t answer. |
|||
A |
even if |
逆接の仮定条件1 |
勉強は辛くても、我慢しなければなりませんよ。 |
Even if studying is hard, you must keep at it. |
|||
B |
no matter |
逆接の仮定条件2 |
あなたがいくら待っても、春子さんは来ないでしょう。 |
No matter how long you wait, Haruko probably won't be coming. |
|||
C |
whether |
逆接の仮定条件3 |
我々が手を貸しても貸さなくてもその事業は失敗するだろう。 |
Whether we help or not, the enterprise will fail. |
|||
D |
it is all right |
許可、許容 |
ここでたばこを吸っても構いませんか。 |
Is it all right to smoke here? |
|||
E |
not have to |
不要 |
そんなに急がなくてもいいです。 |
There's no need to be in such a hurry. |
|||
F |
anyhow |
雨が降るかもしれないが、いずれにしても出かける。 |
|
It may rain, but anyhow I shall go out. |
|||
G |
at (the) 最上級 |
必要条件 |
この仕事を完成するには、少なくても1ヶ月はかかります。 |
It will take at least a month to finish this job. |
3. 接続助詞「ば」「と」「ても」の意味の判定法
各接続助詞のそれぞれの接続の意味に対して、各標本データ500文から主節と従属節の構造上の特徴を各用法ごとに分析した。それらの構造的特徴から実際に計算機上で判定を行うことを考慮して判定条件を定めた結果を表5,表6,表7に示す。
重文の接続の意味分類を行う際、判定条件の適用順序が問題になる。各判定条件は「真」を正しく「真」と判定する場合と、「偽」を誤って「真」と判定する場合があるので、総合判定正解率は判定条件の適用順序に依存する。そこで判定条件をどのような順序で適用したら最大の総合判定正解率が得られるかを以下(1),(2),(3)で検討する。なお、各判定条件が「真」を正しく「真」と判定する性質を判定率:p、「偽」を誤って「真」とする性質を誤判定率:qとする。
2つ以上の意味を判定するのに異なる判定条件を使用する場合の判定条件の適用順序を検討する。まず、2つの意味を判定するのに異なる判定条件を使用する場合について考える。意味Aと判定する条件を判定条件x、意味Bと判定する条件を判定条件yとし、判定条件x、yそれぞれの判定率と誤判定率をpx,pyおよびqx,qyとする。そして、判定条件x、yをx→yの順に適用した場合(図1)、それとは逆に判定条件x、yをy→xの順に適用した場合(図2)それぞれの総合判定正解率を求める。ただし意味A,Bそれぞれの数をa,bとする。
A{a} |
B{b} |
判定条件x |
正解率:a px誤り率:b qx |
A{a(1− px)} |
B{b(1− qx)} |
判定条件y |
正解率:b py(1−qx)誤り率:a qy(1−px) |
A{a(1+ pxqy−px−qy)} |
B{b(1+ py qx−py−qx)} |
図1.判定条件x,yをx→yの順に適用した場合
A{a} |
B{b} |
判定条件y |
正解率:b py誤り率:a qy |
A{a(1− qx)} |
B{b(1− px)} |
判定条件x |
正解率:a px(1−qy)誤り率:b qx(1−py) |
A{a(1+ pxqy−px−qy)} |
B{b(1+ py qx−py−qx)} |
図2.判定条件x,yをy→xの順に適用した場合
判定条件x,yをx→yの順に適用した場合の総合判定率をαとすると図1より、
α=a
px+bpy(1−qx)判定条件x,yをy→xの順に適用した場合の総合判定率をβとすると図2より、
β=b
py+apx(1−qy)α−β=a
pxqy−bpyqxここで、αの方がβより総合判定正解率が高いと仮定すると、α−β>0であるから、
a
pxqy>bpyqxa
px/qx>bpy/qy … (@)a,bはそれぞれ意味A,Bの数であるが、接続助詞「ば」「と」「ても」を持つ接続の意味の割合は決まっていて、その比がa,bの値となる。よって、2つの意味を判定するのに異なる判定条件を使用する場合の判定条件の適用順序は
(@)によって決定する。また、2つ以上の意味を判定するのに異なる判定条件を使用する場合の判定条件の適用順序の決定も同様にして行う。
同一意味を判定するのに2つ以上の判定条件を使用する場合を検討する。まず、同一意味を判定するのに2つの判定条件を使用する場合について考える。意味Aと判定する条件を判定条件1,2とし、判定条件1,2それぞれの判定率と誤判定率を
p1,p2及びq1,q2とする。そして、判定条件1,2を1→2の順に適用した場合(図3)、それとは逆に判定条件1,2を2→1の順に適用した場合(図4)それぞれの総合判定正解率を求める。ただし意味A,Bそれぞれの数をa,bとする。
A{a} |
B{b} |
判定条件1 |
正解率:a p1誤り率:b q1 |
A{a(1− p1)} |
B{b(1− q1)} |
判定条件2 |
正解率:a p2(1−p1)誤り率:b q2(1−q1) |
A{a(1+ p1p2−p1−p2)} |
B{b(1+ q1 q2−q1−q2)} |
図3.判定条件1,2を1→2の順に適用した場合
A{a} |
B{b} |
判定条件2 |
正解率:a p2誤り率:b q2 |
A{a(1− p2)} |
B{b(1− q2)} |
判定条件1 |
正解率:a p1(1−p2)誤り率:b q1(1−q2) |
A{a(1+ p1p2−p1−p2)} |
B{b(1+ q1 q2−q1−q2)} |
図4.判定条件x,yをy→xの順に適用した場合
判定条件1,2を1→2の順に適用した場合の総合判定正解率をαとすると図3より、
α=a
p1+ap2(1−p1)判定条件1,2を2→1の順に適用した場合の総合判定正解率をβとすると図4より、
β=a
p2+ap1(1−p2)α−β=0
α=β …
(A)(
A)より、同一意味を判定する判定条件が2つ存在するときは、判定条件の適用順序を変えても総合判定正解率は変化しない。また、同一意味を判定する判定条件が2つ以上存在する場合の判定条件の適用順序も同様である。
同一意味を判定する判定条件が複数存在し、かつ複数の意味を異なる判定条件によって判定する場合を検討する。(2)より、同一意味を判定する判定条件が複数存在しても、判定条件の適用順序によって総合判定正解率は変化しない。従って、同一意味を判定する判定条件が複数存在する場合には、それらの判定条件をまとめて1つの判定条件にすればよい。また、複数の意味を判定する異なる判定条件によって判定する場合の判定条件の適用順序は前節(1)で述べたように決定すればよい。
従って、(1),(2),(3)より判定条件の適用順序は決定される。
接続助詞「ば」「と」「ても」を含む重文の接続の意味を、高い精度で判定するための思考実験手順を図5に示す。
実験対象として新聞記事経済欄1年分より接続助詞「ば」「と」「ても」を含む重文それぞれ2,000文、1,396文、1,043文を抽出 |
↓
収集した文のうちそれぞれ500文(標本データ)を第2章の分類に従って人手で接続の意味を分類 |
↓
各意味分類ごとにその構造的特徴から計算機上での判定を考慮した判定条件を作成 |
↓
各判定条件の判定精度を計算して、判定条件の適用順序を決定 |
↓
各接続助詞を持つ重文それぞれ200文を定めた適用順序と判定条件に従って意味を解析 |
図5.思考実験手順
なお、最終的に判定条件に漏れたデータは、標本データで各接続助詞の接続の意味として最も割合の高かったものに分類した。
定めた適用順序に従って意味解析を行った結果を表6,7に示す。接続助詞「ば」「と」「ても」を持つ重文の接続の意味解析の判定精度はそれぞれ92%(200文中183文),72%(200文中144文),81%(200文中162文)という数字を得た。総合判定結果を表8に、「ば」、「と」、「ても」を持つ原文をそれぞれ最も出現頻度の多いif(仮定条件)、if(仮定条件)、even if(逆接の仮定条件)と判定した場合の結果(デフォルト値)を表9に示す。
表8.各接続助詞の総合判定結果
「ば」 |
「と」 |
「ても」 |
|
判定率(正解文数) |
92 %(183件) |
72 %(144件) |
81 %(162件) |
誤判定率(誤り文数) |
9 %(17件) |
16 %(31件) |
18 %(37件) |
表9.デフォルト値
「ば」 |
「と」 |
「ても」 |
|
判定率(正解文数) |
84 %(168件) |
63 %(126件) |
63 %(126件) |
誤判定率(誤り文数) |
16 %(32件) |
37 %(74件) |
37 %(74件) |
なお、判定率及び誤判定率は以下の式によって求めた。
正しく判定された原文数 誤って判定された原文数
判定率=━━━━━━━━━━━ 誤判定率=━━━━━━━━━━━
正解文数
全原文数―正解文数
各接続助詞の用法毎ごとの判定結果は表7のようになった。
表10.各接続助詞の用法ごとの判定結果
「ば」の意味分類 |
上:正解文数 下:誤り文数 |
上:判定率 下:誤判定率 |
「と」の意味分類 |
上:正解文数 下:誤り文数 |
上:判定率 下:誤判定率 |
|
if |
54 |
32% |
if |
45 |
36% |
|
168 |
2 |
6% |
126 |
0 |
0% |
|
when |
5 |
83% |
when |
35 |
67% |
|
6 |
13 |
7% |
52 |
10 |
68% |
|
must |
7 |
100% |
according to |
1 |
100% |
|
7 |
0 |
0% |
1 |
0 |
0% |
|
the 比較級 the 比較級 |
1 |
100% |
in terms of |
8 |
89% |
|
1 |
0 |
0% |
9 |
1 |
1% |
|
as well as |
2 |
100% |
considering |
4 |
80% |
|
2 |
0 |
0% |
5 |
0 |
0% |
|
should |
2 |
100% |
as compared |
6 |
86% |
|
2 |
0 |
0% |
7 |
1 |
1% |
|
in terms of |
4 |
67% |
||||
6 |
0 |
0% |
||||
副詞+speaking |
3 |
100% |
||||
3 |
0 |
0% |
||||
talking of 0 |
0 1 |
0% |
||||
1% |
||||||
as compared |
3 |
100% |
||||
3 |
0 |
0% |
||||
what等 |
2 |
100% |
||||
2 |
0 |
0% |
「ても」の意味分類 |
上:正解文数 下:誤り文数 |
上:判定率 下:誤判定率 |
although |
37 |
72% |
53 |
22 |
14% |
even if |
39 |
31% |
126 |
1 |
1% |
no matter 5W1H |
12 |
100% |
12 |
2 |
1% |
whether |
3 |
100% |
3 |
0 |
0% |
It is all right |
4 |
100% |
4 |
0 |
0% |
not have to |
1 |
100% |
1 |
0 |
0% |
anyhow |
1 |
100% |
1 |
0 |
0% |
以上より、次のことがわかった。
・「ば」の解析では、@
ifの原文をAwhenと誤判定するケースが多くみられた。→A
・「と」の解析では、A
whenの原文が判定漏れを起こすケースが多くみられた。→A
whenの判定条件が不十分。判定条件を追加する必要がある。・「ても」の解析では、A
even ifの原文を@althoughと誤判定するケースが多くみられた。→@
→@
althoughの判定条件が不十分。判定条件を追加する必要がある。
あとがき
本論文では、接続助詞「ば」「と」「ても」を持つ重文の接続の意味を、英文との対応付けによって分類し、主節と従属節の構造的特徴に着目して特定の属性に限定せず用法ごとに個別に判定条件を定め、解析精度が最大となるように適切な判定条件の適用順序を定めることによって解析する方法を提案した。
その結果、新聞記事経済欄1年分中の接続助詞「ば」「と」「ても」を持つ重文各200文に対して、それぞれ92%,72%,81%の判定精度を得た。この結果より、接続助詞「ば」「と」「ても」を持つ重文の接続の意味を、主節と従属節の構造的特徴をもとに作成した判定条件によって解析する手法の有効性が示された。
誤判定及び判定漏れを起こした対象文については、第2章で述べた英文との対応付けによる分類では対処できないような表現を含むものも多くみられ、これに関しては、さらに分類を追加、あるいは細分化することによって対処可能であると思われる。
今後は、さらなる解析精度の向上を目指すべく、用法分類及び判定条件を再検討し、また、本手法を実際に計算機上で行う場合の検証、及び本手法が「ば」「と」「ても」以外の接続助詞を持つ重文の接続の意味解析に有効かどうかの検証を行っていく必要がある。
参考文献
ステム、情報処理学会自然言語処理研究会、96-NL-111,pp,47-54
2)
仁田義雄(1995):複文の研究(上)シテ形接続をめぐって,くろしお出版3)
向仲(1997):動詞の主体の属性を用いた複文の連接関係の解析、自然言語処理4(4),3-164
4)
井上慎一、池原悟、足立守啓(1998):接続助詞「が」を持つ重文の意味解析5)
国際交流基金 日本語国際センター(1986):基礎日本語学習辞典,凡人社