名詞の訳語選択における意味属性の有効性
桐澤 洋 池原 悟 村上 仁一
鳥取大学 工学部
E-mail:{ kirisawa,ikehara,murakami } @ike.tottori-u.ac.jp
- あらまし -
本研究では、日英機械翻訳における名詞の多義性解消のためのひ とつの手掛かりを得るために意味属性に着目し、その語義識別能力を検証 した。検討には岩波書店の「日本語語彙大系」の意味属性体系を用 い、ALTの日英対照辞書に収録されている語の中から、IPALの名詞 辞書に収録されている日本語の基本名詞に対応し、さらに複数の英 訳語を持つ499語を対象に訳語選択における意味属性の 効果を調べた。その結果、55%の名詞が一意に 訳語を決定でき、それを含む87%の名詞に対して候補の絞り込みな どの効果が得られることが分かった。また、平均多義数の減少や正解 が得られる確率の向上などの効果も推定された。さらに、 意味属性の拡張についても検討したが、一意に訳語を決定できる名詞 の割合が6%向上したにとどまった。
キーワード:機械翻訳、名詞の訳語選択、意味属性、結合価パターン、シソーラス
Effects of the Semantic Attributes
in Selective Translations for Nouns
Hiroshi Kirisawa Satoru Ikehara Jinichi Murakami
Faculty of Engineering,Tottori University
E-mail:{ kirisawa,ikehara,murakami } @ike.tottori-u.ac.jp
- Abstract -
We note a semantic attribute as the clue for the disambiguation of translaton of noun word, and examined its ability of word meaning discrimination. For research, we use the "Nihongo Goi Taikei" for Iwanami and Japanese-English ductionary for ALT and IPAL Noun dictionaty.
We studied for the 499 words basic noun of Japanese from the words. As a result, 55% of nouns could be selected on translated word, and 87% of nouns could be reduced ambiguity.
We also try to extend the semantic attribute. However, the improvement was only 6%.
key words : machin translation, the noun selective translation,semantic attribute,
Valency Pattern, thesaurus
1.はじめに
機械翻訳を行う際の問題点の1つとして、多義を持つ単語の訳語選択 がある。ある単語に対して複数の訳語が存在する場合、文として正しい翻訳 結果を得るためには、その中から適切な訳語を1つ選びだす 必要がある。
訳語選択法についてはこれまでに、用言の訳し分けの方法としては 共起レベルと頻度をパラメータとする「尤度」と辞書的記述を もとにした「制約」を用いる方法(野美山 1991)や単語の共起関係を 用いた方法(鈴木、太細 1991)、用言の文型パターンをまとめた結合価 パターンを使う方法(池原 他 1997)などがある。 また、名詞については連体修飾句内の名詞の訳し分けの方法 として、格の情報と意味属性を用いた方法(北村、荻野 1990)などが 提案されているが、名詞自体に訳し分けのための情報を求める研究や 、名詞一般についての分析を行った論文はあまり見受けられない。 名詞の多義構造についての論文としては(桑畑、本多 1997)があるが、 日本語に閉じた研究であり英語との対応関係は不明である。 これは、名詞は数が多い上に意味が多様で、今まで有効な手掛かりが 無かったためである。
本稿ではその手掛かりを得るための一つの方法として、日英の語彙を 比較することにより日本語名詞の多義構造を調べ、意味属性体系 の持つ語義識別能力を使用すれば名詞の訳し分けがどの程度可能となるかを 明らかにする。具体的には日本語、日英対照の2つの計算機用名詞辞書 を用いて日本語名詞の語義と意味属性及び英訳語の対応関係を調べるとともに、 多義構造の単語意味属性による訳し分け能力を明らかにし、さらに その語義識別能力の向上の可能性を探る。
本論文は以下、2章で意味属性による訳語選択について説明した後、 3章で検討対象について、4章、5章で実際の検討とその結果について 述べる。
2.意味属性を用いた訳語選択
現在、日本語動詞の英訳語選択に関しては結合価パターンを用いることで ほぼ決定することができるが、名詞の訳語選択に関しては、まだ 問題が残っている。 ここで、この問題に対する解決法のひとつとして、 結合価パターンを用いた動詞選択を行う際、日本語文 の解析の結果として名詞に付与される「意味属性」を 用いることで、動詞の訳語を決定すると同時に名詞の訳語 も決定できる可能性がある。
「意味属性」とは、「ある単語が意味的にどんな使われ方をするか という意味的用法を整理し、体系化したもの」である。
単語の「意味的用法」は単語の語義から派生することを考えると、 実際に使用された文中での単語の「意味的用法」がわかれば、その単語が どの語義で使用されたかを判断できる可能性がある。したがって、 単語意味属性は訳語選択に役立つと期待できる。
例えば、「犬」という日本語には''dog''、''spy''という2つの英訳語が あり、それぞれ[獣]、[スパイ]という意味属性をもつ。そこで、 「犬」という単語が使われている日本語文を解析し、その単語の意味属性が 決定できれば対応する英訳語を決定できる。すなわち、解析の結果「犬」の 意味属性が[獣]と決まれば''dog''が、[スパイ]と決まれば''spy''が選択 される。一方、「えさ」という日本語に対する英訳語''feed''、''bait''は、 双方とも[飼料]という意味属性をもつ。これは、日本語では同義として扱うが 英語では使い分けがあるために複数の訳語が対応する名詞であり、日本語から 見た場合「意味的用法」に違いがないため意味属性による訳し分けはできない。 このような名詞に関しては他の方法が必要となる。
なお、一般に意味属性は1つの単語に対して複数付与されているが、 今回の研究では日本語文の解析によって一意に決まると仮定して 検討を進める。
3.検討対象
本論文では名詞について、日本語内での語義分類と日英を対比した場合の 語義分類の違いを調べるとともに、名詞に付与された意味属性を 検討することにより単語意味属性のもつ訳し分け能力を明らかにする。 そのために以下の辞書を使用する。
(1)計算機用日本語基本名詞辞書IPAL
通産省の外郭団体である情報処理振興事業協会が作成した日本語辞書であり、 複数の言語学者により選定された日本語の基本名詞1,081語が収録されている。 それぞれの名詞はかな表記を見出し語とし、複数の日本語表記や語義など、 見出し語ごとに詳細な情報が記述されている。
(2)ALT-J/E日英対照一般名詞辞書
NTTが作成した日英対照辞書。約60,000語の見出し語が収録されており、 それぞれの英訳語のもつ意味属性が辞書の情報として記載されている。 なお、この辞書はNTTが開発した「ALT-J/E」という機械翻訳システムで 実際に用いられている。
(3)日本語語彙大系
岩波書店より出版されている全5巻からなる辞書で、日本語意味解析 のための単語体系や構文体系などが収録されている。今回の検討では、 これらの中でも「第1巻 意味体系」に収録されている一般名詞 意味属性体系を用いる。これは一般名詞に対して[具体]、[関係]など 約2,700の属性に分け、木構造としてまとめたもので、約30万語の 名詞の意味的用法が単語意味属性を用いて定義されている。
検討は、これらの辞書に収録されている名詞のうち、IPALの辞書に登 録されている日本語の基本名詞1,081語を対象に行う。 和語系の名詞では良く使われる名詞ほど多様な意味を持っていると 考えられるが、IPALの辞書に収録されている基本名詞を対象とする ことで特に多義数の多い和語系名詞を中心に検討を進めることが でき、名詞の多義性解消の検討として十分な結果が得られると期待できる。
4.意味属性の語義識別能力
4.1 IPALとALTの対応付け及び比較
はじめに、IPALの辞書とALTの辞書に収録されている見出し語を 日本語表記をもとに対応させ、表.1のような対応表を作成する。
表1 IPAL-ALT対応表
見出し語 | IPAL | ALT |
かき | [柿、かき、カキ](2) | [柿](1) |
-[柿(かき),かき,カキ]- | :persimmon [果物][果樹] | |
*秋に赤く、食用になる実をつける、カキノキ科の落葉高木 | [かき](3) | |
-[柿(かき),かき,カキ]- | :persimmon [果物][果樹] | |
*「かき(柿)」の果実 | (木):persimmon tree [果樹] | |
:oyster [貝][魚介類] | ||
この例では、まず「かき」という見出し語に対してIPALの辞書には 「柿」「かき」「カキ」という3つの表記が記載されており、その語義 として2つの意味が挙げられている。そして、IPALの日本語表記をもとに ALTの辞書から対応する名詞を探すと、「柿」という表記に対して英訳語 ``persimmon''とその意味属性[果物][果樹]が、「かき」という表記に 対して英訳語''persimmon''、''persimmon tree''、''oyster''とそれぞれの 意味属性が登録されているので、これを訳語候補とする。 なお、この中で''oyster''はIPALに登録されている「かき」とは別の物 だが、機械翻訳では表記がまず一番の情報となるので、これも「かき」の訳語候補 の中に含める。
このようにして対応表を作成した結果、IPALに収録されている 基本名詞1,081語のうち94%にあたる 1,014語に対して、ALTの1,144語を対応づけることができた。 このことから、ALTの辞書が日本語の基本名詞を十分に収録 しているといえる。
また、双方の多義数を比較した結果を図1、表2に示す。これらを 見ると、名詞の多義数は日英を対比して見た場合よりも日本語の 中で見た場合のほうが多いことが分かる。
表2 IPALとALTの多義数の比較
IPAL | ALT | |
平均多義数 | 2.13 | 1.88 |
最大多義数 | 18 | 12 |
4.2 意味属性の語義識別能力の検討
次に、対応表から2つ以上の英訳語をもつ名詞を全て抽出し、意味属性を 用いた訳し分けがどの程度可能かを検討した。 対象となった499語を調べた結果、大きく以下の4つに分類することが できた。
(1)訳し分け可能
複数ある訳語候補の意味属性が全て異なる場合を「訳し分け可能」とする。
例えば表3の「かい」の項目を見ると、各英訳語の意 に対して[魚][魚介類]が、''shell''に対して[殻]が付与されており、 お互いに異なっているため、この2つの訳語候補を意味属性で完全に区別できる。 つまり、「貝を食べる。」という文を考えた場合は「かい」の意味属性は[魚介類]、 あるいは[魚]となり、''shellfish''という訳語が選ばれ、 また、「貝がうず高く積もっている。」という文では「貝」は貝殻のことを指して おり、意味属性は[殻]を持つため、英訳語は''shell''となる。
表3 意味属性による訳し分け例
見出し語 | 意味属性 | 英訳語 | ||
訳し分け | かい | [魚][魚介類] | :shellfish | |
可能 | [殻] | (貝がら) | :shell | |
スキー | [スポーツ] | 滑る事 | :skiing | |
[遊び道具・運動具] | 道具 | :ski | ||
訳し分け | きば | [牙] | 象などの | :tusk |
不可能 | [牙] | 犬、狼の | :fang | |
かおり | - | 一般的 | :smell | |
- | 一般的 | :scent | ||
- | 芳香 | :perfume | ||
- | 芳香 | :aroma | ||
- | 芳香 | :fragrance | ||
場合によ | いいん | [成員][複数] | 全体 | :committee |
り可能 | [成員][単数] | 一員 | :member of a committee | |
だっせん | [指向・偏向][目的] | 方針・標準からの | :deviation | |
[指向・偏向][話] | 話の | :degression | ||
[事件] | 電車などの | :derailment | ||
絞り込み | き | [樹木] | 樹木 | :tree |
可能 | [樹木] | 灌木 | :shrub | |
[材木] | 材木 | :wood | ||
[材木] | 製材した | :lumber | ||
[材木] | 丸太 | :log | ||
あさ | [作物][繊維] | 亜麻およびその繊維 | :flax | |
[作物][繊維] | 麻、大麻およびその繊維 | :hemp | ||
[糸・布] | 麻製品 | linen | ||
同様に「スキー」という名詞について考えると、「スキーを楽しむ。」 という文では、「スキー」は雪の上を滑るスポーツのことを指している ので[スポーツ]という意味属性を持ち、英訳する場合には''skiing''という訳語が 選択される。これに対して「スキーを借りる。」というような文では、 「スキーをするための道具」を指しているので [遊び道具・運動具]という意味属性を持ち、英訳語としては''ski''が選ばれる。
このように、意味属性によって訳語を完全に一意に決定できる名詞を ここに分類した。
(2)訳し分け不可能
英訳語に付与されている意味属性が全て同じ、あるいは辞書の情報として 意味属性がまったく付与されていない場合を「訳し分け不可能」とする。
表3の「きば」という名詞では、象などの牙は''tusk''、犬や狼の牙は''fang'' というように英語では使い分けるが、ALTの辞書を見るとどちらの訳語に対しても[牙]という意味属性 が登録されいる。したがって、元の日本語文でどのような使われ方をしていても、 「きば」の意味属性は[牙]となってしまい、この情報から''tusk''と''fang'' を区別することは出来ない。
また、「かおり」については、この項目を見る限り辞書に意味属性が 登録されていないため、そもそも意味属性を訳し分けの情報として 用いることができない。
これらの名詞については、意味属性を訳し分けのための情報として 利用できない。
(3)場合により訳し分け可能
日本語の解析の結果によって訳し分けが可能になったり不可能になったりする 名詞を「場合により訳し分け可能」とする。
表3の「いいん」の項目を見ると、 ``committee''に対して[成員][複数]という意味属性が、''member of a committee'' に対して[成員][単数]という意味属性が付与されている。 この場合、日本語文の解析の結果、「いいん」の意味属性が[成員]と決まると 2つの訳語候補を区別できない。 しかし、[単数]と決まれば''member of a committee''が、 [複数]と決まれば''commitee''が選ばれる。 例えば、「不況対策を委員で話し合う。」「彼は生徒会の委員に選ばれた。」 という2つ文を考えた場合、前者は数名の委員の集まりを指しているので ``member of a committee''が、 後者は委員会の中の1人を指しているので''committee''が、 それぞれの訳語として選ばれる可能性がある。
もう一つ、「だっせん」という名詞を例に挙げる。まず、電車など の脱線事故を指す''derailment''については、[事件]という意味属性が与えられて おり、他の2つの訳語候補と重ならないため一意に決定できる。 しかし、''deviation''と''degression''に関しては、[目的]または[話] という意味属性が選ばれた場合はどちらか一方に決定できるが、 意味属性[指向・偏向]が重なっているため、これが「脱線」の意味属性に 選ばれた場合は2つの候補を区別できない。 このように、訳語候補の中に一意に決定できるものがある場合もここに 含めた。
(4)絞り込み可能
訳語を一意に決定することはできないが、 候補の数を減らすことができる名詞を「絞り込み可能」 とする。
例として表3の「き」の項目を見ると、5つある訳語候補が、 意味属性が[樹木]のものと[材木]のものに分けることができる。 そこで、「庭に木を植える。」という文を考えた場合、「木」は 植物であるところの木を指しているので意味属性は[樹木]となり、 その結果、訳語候補は[樹木]という意味属性をもつ''tree''、''shrub'' の2つに絞られる。同様に、「木の小屋を建てる。」という文では、 「木」は材木の意味で使われているので、 英訳語は[材木]という意味属性を持つ''wood''、''lumber''、''log'' の3つのうちのどれか、ということになる。
また、「あさ」という名詞については、日本語文の解析によって意味属性が [糸・布]に決定した場合は''linen''という訳語が選ばれるが、 [作物]、または[繊維]のいずれかに決定した場合は``flax''、''hemp''ともに 同じ意味属性を持つため、どちらか一方を選択することはできない。 しかし、訳語候補の数で見ると3つから2つに減少したと言える ので、このような名詞も「絞り込み可能」に分類した。
なお、ここで挙げた「あさ」の例と、「場合により訳し分け可能」の ところで挙げた「だっせん」の例は、全ての訳語候補に対して一意に決定で きる可能性があるかないか、という点で異なる。
つまり、どちらも3つある訳語候補のうち1つは訳し分けることができる。 しかし、残った2つの候補については、「だっせん」の例ではどの意味属性に 決まるかによって訳し分けができる場合とできない場合に分かれるのに対し、 「あさ」の例ではどの意味属性が選ばれても訳し分けはできない。
以上の4つの基準で分類を行った結果、それぞれの割合は図2のようになった。 この図より、意味属性ではまったく訳し分けができない名詞は13%で、 ほぼ半分の55%は一意に訳し分けが可能、また、残りの32%の名詞に対しても 候補数の絞り込みなどの効果が得られたことが分かる。
さらに、意味属性を用いることで表4のような効果が得られた。 平均多義数は、意味属性による訳語の選択を行うことでおよそ半分に 減少、また、正解が得られる確率は、全ての候補が等確率で選ばれる 場合に比べて約2倍にまで向上した。
以上のことから、意味属性は訳語選択に有効であるといえる。
表4 意味属性による効果
意味属性未使用 | 意味属性使用 | |
平均多義数 | 3.02 | 1.74 |
正解が得られる確率 | 38.7% | 78.6% |
5.意味属性の拡張
5.1 意味属性の拡張の可能性
4章で検討の対象とした499語のうち一意に訳語が決定できなかった 224語を対象に、それぞれの訳語候補の違いを調べ、 それをもとに現在ある意味属性を修正、拡張することを考えた。 その結果、語義識別能力の向上につながりうる観点として 以下のようなものが得られた。
< 単複 >
単数か複数かで異なる訳語が登録されている名詞。
例)「さくら」
劇場の(その中の一人):claqueur[補佐]
劇場の(集合的に):claque[補佐]
< 一般/特定 >
一般的な総称と、その中の特定のものを指す表現のある名詞。
例)「校舎」
学校の建物:school building[家屋(本体)][学校]
特に小学校の:schoolhouse[家屋(本体)][学校]
< 全体/部分 >
あるものの全体と、その一部を指す表現のある名詞。
例)「顔」
首から上:head[顔][観]
顔面:face[顔面][観]
< 具体/抽象 >
具体物を指す場合と、抽象物を指す場合がある名詞。
例)「腕」
:arm[腕]
技術:skill[腕]
< 男/女 >
性別の違いによって表現が異なる名詞。
例)「牛」
(雄):bull[獣][男]
(雌):cow[獣][女]
< 人/獣 >
人間とそれ以外の生物で表現の異なる名詞。
例)「爪」
鳥や獣の:claw[獣][爪]
(人の):nail[人間][爪]
< 自然物/化工品 >
自然物を指す場合と、人の手が加えられた物をさす場合のある名詞。
例)「汁」
果物、野菜、肉などの:juice[汁][液体(その他)]
(吸い物):soup[汁][コーヒー・ジュース]
< 英/米 >
イギリス英語とアメリカ英語で表現が異なる名詞。
例)「種」
桃など:pit[食品] (米)
梅など:stone[食品](英)
< 口語/文語 > 話し言葉と書き言葉で異なる表現を持つ名詞。
例)「自転車」
口語的には:bike
[乗り物(本体(移動(陸圏)))][スポーツ]
:bicycle
[乗り物(本体(移動(陸圏)))][スポーツ]
これらの観点を各々独立した次元とし、本稿で用いた意味属性体系を 多次元シソーラスに拡張することを考えた。
<単複>の場合を例に挙げると、「さくら」の訳語候補に付与されている [補佐]という意味属性に「単数」「複数」という項目を加え、 ``claqueur''の意味属性を[補佐、単数]、''claque''の意味属性を[補佐、複数] という2次元にすることで、2つの訳語候補の訳し分けを図った。
この方法の効果を検討した結果、対象とした224語のうち一意に訳語が 決定できる名詞は30語であった。 これは、複数の訳語をもつ見出し語全体の499語からみると6%の向上であるが、 意味属性体系や対訳辞書の再構築などの手間を考えると、 あまり有効な手段ではないと思われる。
この結果より、今回検討に用いた意味属性体系はシソーラスとして 十分な性能を持っており、意味属性のみでこれ以上 の翻訳精度の飛躍的な向上を望むことは難しいと いえる。
5.2 意味属性以外の観点
これまでの検討において意味属性では訳し分けが出来なかった 例と、それらを訳し分けのために必要と思われる観点を表5に示す。
観点 | 見出し語 | 意味属性 | 英訳語 | |
目的 |
えさ | [飼料] | (動物などを飼うための) | :feed |
[飼料] | (魚、動物をとるための) | :bait | ||
原因 | 傷 | [怪我] | 刃物による切り傷 | :cut |
[怪我] | 物理的、精神的 | :wound | ||
[怪我] | (偶然に受けた) | :injury | ||
立場 | 表 | [表] | 裏に対して | :face |
[表] | 内側に対して | :surface | ||
形状 | 帽子 | [帽子] | (縁つき) | :hat |
[帽子] | (縁なし) | :cap | ||
部位 | 髭 | [ひげ] | (あごひげ) | :beard |
[ひげ] | 口髭 | :mustache | ||
[ひげ] | 頬髭 | :whiskers | ||
種類 | えび | [えび・かに | (車えび) | :prawn |
・たこ・いか] | ||||
[魚介類] | ||||
[えび・かに | (小えび) | :shrimp | ||
・たこ・いか] | ||||
[魚介類] | ||||
[えび・かに | (いせえび) | :lobster | ||
・たこ・いか] | ||||
[魚介類] | ||||
まず、「えさ」という名詞は、英語ではその使用目的によって ``feed''と''bait''を使い分けるのだが、 本研究で用いた意味属性ではどちらも[飼料]が付与されている ため、この2つを区別することはできない。
また、「傷」のようになんらかの原因による結果を表しており、 その原因の違いによって訳し分けのある名詞や、 「表(おもて)」のように対をなす語があり、それによって訳語が 変る名詞なども、意味属性では訳語候補の違いを表すことが できない。
さらに、形状によって''hat''と''cap''が区別される「帽子」、 どの部分を指すかによって''beard''、''mustache''、''whiskers'' が使い分けられる「髭」、種類によって''prawn''、''shrimp''、 ``lobster''と呼び方の異なる「えび」 などは、いずれも具体的に何を指しているかが分かれば訳し分け は可能だが、意味属性のみでは訳語を決定することはできない。
これらの名詞は、意味属性では訳語候補間の違いを表せない、 あるいは、非常に個別性が高いため、訳し分けるための意味属性を 用意したとしても個別ルールにしかなり得ず、全体的な精度の 向上にはつながりにくいものである。
このような名詞については、他の単語との共起などから情報を 得る必要があるだろう。
6.結論
本研究では、日本語と日英対照の2つの計算機用名詞辞書を用いた 検討によって、日英機械翻訳における名詞の訳語選択の問題に 対して、単語意味属性体系の持つ語義識別能力に着目し、その 有効性を調べた。
すなわち、IPALとALTの辞書に収録されている見出し語の日本語表記を もとに、日本語内で見た場合の語義と日英対比で見た場合の英訳語 の対応表を作成し、双方の多義数の関係を調べた。また、複数の英訳語 を持つ見出し語に対して、意味属性による訳し分けがどの程度 可能か、さらに、意味属性を拡張することでどの程度の精度の 向上が見られるかを検討した。
その結果、多義数の関係については、今回検討した範囲では日本語の中で 見た場合の方が、日英を対比してみた場合に比べて多義数が 多いことが分かった。また、訳し分け能力に関しては、 意味属性を用いることで対象となる語の87%に対して訳し分けや候補の絞り込み などの効果が得られたほか、平均多義数が約半分に減少、正解が 得られる確率がおよそ2倍にまで向上するなどの効果もあった。 しかし、意味属性の拡張についての検討では期待したほどの効果は 得られず、訳語を一意に決定できる見出し語の割合が55%から61%に 向上したにとどまった。
以上より、意味属性は訳語選択において効果を発揮すること、 そして、意味属性のみによる訳し分けの能力は現段階で およそ限界であることが示された。
参考文献
北野、荻野(1990):日英翻訳における連帯修飾句の訳し分け、情報処理学会 研究報告書,vol.90,No.5、75-10
桑畑、本多(1997):IPAL名詞辞書における多義構造の記述、第16回IPA技術発表会、 p189200.
野美山浩(1991):目的言語の知識を用いた訳語選択とその学習性、 情報処理学会研究報告,vol.91,No.96、86-8
鈴木、太細(1991):日英機械翻訳における共起表現の扱い、情報処理学会研究報告, vol.91,No.25、82-9
池原、宮崎、白井、横尾、中岩、小倉、大山、林(1997):日本語語彙大系、岩波書店