- ...
(埋め込み節を持つ文)や重文(接続構造を持つ文)に対して,意味の非線形性
- 慣用表現の例からも分かるように,言語表現の意味が,それを構成す
る要素の意味の和として表現できないことを言う.言語表現の意味の線形性,非
線形性の定義とその判定の方法は,[池原池原2004]で提案されている.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...本稿で評価対象とする辞書は,2カ所又は3カ所の述部を持つ
- 多数の
述部を持つ重文,複文の場合,全体が非線形である場合は少なく,多くの場合は,
少数の述部を持つ非線形構造の組み合わせによって構成されていると考えられる
ため,述部2又は3までの非線形構造を対象に文型パターン化されている.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
造
- 対象とする文型パターン辞書では,「言語表現中,他の要素に置き
換えても表現構造全体の意味が変わらない要素(例えば変数化したとき変域が定
義できる要素)」を「線形要素」と定義し,「線形要素のみから構成される表現
構造」を「線形な表現構造」と定義している.また,日本語表現の意味を英語表
現を用いて定義することにより,具体的な判定基準を設けている.詳細は,
[池原池原2004]を参照.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...を文法レベルでパターン化したもの
- 形
態素解析で得られる品詞情報と句や節の単位に関する情報を使用して定義された
もので,変数に対する意味的な制約条件などは使用されていない.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
文12.9万件
- 日本文は重文,複文であるが,対応する英文は,重文,複
文とは限らない.意訳されている例が多いため,英文は単文である場合も多い.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...table2に各レベルにおける主な汎化の内容を示す
- 各レベルの詳細は,[池原, 阿部, 徳久, 村上池原
2004]を参照.また,文型パターン記述方法については,[池原, 宮崎, 佐良木, 池田, 白井, 村上, 徳久池原
2003]を参照.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
文法的属性によって変域が指定されるものであることから文法レベルで定義された文型パターンである
- 文型要素が形態素解析で得られた文法情報の範囲で記述されている点で「文法レベルの文型」と呼ぶ.これに対して,変数の意味的な制約条件などを付与した文型を「意味レベルの文型」と呼ぶ.これらはいずれも意味的な類型化は行われていないため,「意味類型パターン」とは区別される.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
特に節レベルの文型パターン数は少ないが,これは節レベルまで汎化できるような標本文が少なかったためである
- 意訳によって単文で翻訳されている標本文が多い.そのような標本文では,日英双方で節間の意味的な対応関係が決めることが困難で,節レベルの文型パターン化はできない.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...本実験では,「文型照合プログラム
- 文型パターン辞書の中から入力文に適合する文型パターンをすべて発見して抽出するプログラムである.入力文が与えられたとき,指定された要素のすべてが,指定された順に出現する文型パターンがその入力文に適合した文型パターンと判定される.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...テスト用の入力文としては,文型パターンの作成に使用した対訳標本の日本文(以下では「母集団試験文」と言う)を使用する.但し,この場合,文型パターンは対訳標本文を汎化することによって作成されているから,各文型パターンはその元となった標本文と必ず適合する.そこで,評価では,テストに使用する入力文から作成された文型パターンを除いた文型パターン辞書を使用する
- 具体的には,該当する入力文から作成された文型パターン(「自己パターン」と言う)への適合はカウントせず,それ以外の文型パターンへの適合のみをカウントする.但し,入力試験文とは異なる標本文から作成された文型パターンに「自己パターン」と同一のものがあってもそれは「自己パターン」とは見なさない.この方法は,クロスバリデーションの方法で,同種の母集団を対象としたオープンテストである.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...そこで,被覆率を「再現率」と「意味適合率」に分けて評価する.但し,「再現率」は,「入力文の何パーセントに対して適合文型パターンが存在するか」を表し,「意味適合率」は,「適合文型パターンのうちどれだけの文型パターンが意味的に正しいか」を表す
- 「再現率」は見かけのカバー率を表す意味で,情報検索で使用される「再現率」の意味とは異なる点に注意.これに対して,「意味適合率」は,情報検索の「適合率」の意味と同様である.なお,真の意味でのカバー率は,「再現率」×「意味適合率」で評価される.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...%をカバーしているか(入力文カバー率)が問題となる
- 文型パターンにカバーされていない要素は,別途翻訳して英文に組み込むことが必要であり,その場合は,どこにどのように組み込めばよいかを判定するため,構文解析情報などが必要となる.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
そこで,ランダムに選択する場合(最悪の場合)ともっとも適切なものが選択できた場合(最良の場合)を考え,評価では,「適合した文型パターンの一つ一つが意味的に正しい
- 「意味的に正しい」(又は「意味的に適合する」)文型パターンといえば,対応する英語文型パターンが入力文の英訳に使用できるような文型パターンのことである.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...「入力文の文字単位に見た再現率」を表すもの
- 従来機械翻訳では,文単位に翻訳率を計算する場合が多い.しかし,通常,長文の翻訳正解率は悪いのに対して単文の正解率は良いため,この方法では,正解率は実際以上に高く評価されることが問題である.「文型一致率」は,この点に留意したもので,再現率を単語数又は文字数で計算している.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...の値としては,入力文中の単語数を使用することも考えられるが,ここでは,簡単のため,文字数を使用することにした
- テスト文として12.9万件を使用した実験結果によれば,形態素単位の評価と文字単位の評価の結果は極めて良く一致し有意差は見られなかったので,文型照合アルゴリズム上計算の単純な文字単位での評価とした.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
これは,文型パターン方式の可能性を期待させるものと言うことができる
- 文型パターンは,非線形な文型構造の持つ意味をすくい取る網のようなものである.もし,述部の多い長文になるにつれて,非線形構造が増加するとなると,あらかじめ準備しておくべき文型パターン数が禁止的な数に増大し,方式そのものが成り立たなくなるおそれがある.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...元来,同一の文型パターンに正しく適合する仕方は,高々1通りのはずであるから,上例のような場合は,複数の適合の仕方の中から,どれが正しい適合の仕方であるかを判定する方法が問題となる
- 異なり文型パターンの中には,意味的に正しいものが複数存在することがある.また,それらに対応する英語文型が異なるときは,微妙な意味の違いによる訳し分けの対象となる.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...MeigaraAndKatoAndHukuchi1989に掲載された日本語例文から抽出したものである.具体的には,上記シリーズの例文12,000件に含まれる述部2又は3の重文と複文を取りだし,その中からそれぞれ1/10の割合で,801件の例文をランダムに選択して試験用の入力文とした
- 述部数2以上をすべて対象としたことでもあるが,このテキストは重文,複文の占める割合が大きい.これは,本テキストが外国人向けの教材であり,外国人の不得手な言い回しの例文が多いためと思われる.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...これらから,「離散記号」は被覆率向上で大きな効果を持つことが分かる.しかし,適合した文型パターンを見ると,確かに,意味的に適切な文型パターンへの適合も増加しているが,不適切な文型パターンへの適合が予想を超えて大幅に増大しているようである.これは,「原文任意記号」が任意の要素の存在を認める意味で使用されていることが原因と考えられる.現状の文型パターンでは,汎用性を向上させるため,入力文が文法的にも意味的にも正しいことを前提に大変緩やかな適用条件とされているが
- 現在,「離散記号」は,その位置に任意の要素が挿入されても良いことを意味する記号として,文型パターン内のほぼすべての文節境界に付与されている.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...単語レベルの文型パターン化において,時制,相,様相の表現は原則として関数化されているが,「文型任意要素」としての指定は行われていない.文型パターンの照合段階での時制変形,相変形,様相変形などの操作を認め,そのような変形が可能な関数を「文型任意要素」として指定すれば,文型パターンの汎用性は大幅に向上することが期待される.そこで,現在使用されている時制,相,様相の関数を無視した場合,文型被覆率がどのように変化するかを調査した
- 効果を推定使用とする方法は,例えば,過去形の例文や推量の意味の例文から,原型に縮退させた文型パターンを作成し,翻訳時には,この文型から過去形,未来の表現,推量や否定などの表現を生成する方法である.この方法は,非線形な要素に対しては適用できない.本節の検討は,すべての削除できたときの効果を調べるもので,効果の最大値を知ることを目的としている.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...table12から,時制,相,様相の削除によって,「完全一致率」は大きく減少する
- これは,現在形の基本形式のテスト文しか文型と完全一致しないようになるためで,当然の結果である.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...」を用いて「再現性」を評価した.しかし,適合した文型パターンが果たして意味的に適切な文型パターンであるか,また,それに対応する英語文型パターンが訳文の生成に問題なく使用できるかは大変重要である.そこで,本章では,排他性が最も高いと推定される単語レベルの文型パターン対象に排他性に関する評価を行った
- この評価は,適合した多数の文型の意味を判定しなければならず,多大なコストがかかるため,もっとも排他性の高いことが期待される単語レベルに限ることにし,標本数も限定して評価した.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...%)は小さく,現状では,実用に耐えられる品質とは考えられない
- 単語レベルだけでなく句レベル,節レベルの文型パターンの意味的な被覆率にもよるが,単語レベルの文型パターンでも現状(14%)の2倍位は欲しいところである.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...」
- 適合文型パターンの品質はランク2での評価とする.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...その対策であるが,「日本語語彙大系」の開発例と今回の被覆率調査から見て(1)「格要素の語順の自由指定や副詞の位置変更可能指定を行うなうこと」,(2)「時制,相,様相の汎化を行うこと」,また,(3)「字面表記の自立語,付属語の表記の揺らぎを徹底的にグループ化すること」が重要と考えられる
- 「日本語語彙大系」の結合価パターンの開発では,これらの作業に加えて変数意味属性自身の汎化作業も徹底して行っており,大きな効果のあることが確認されている.しかし,精密な意味属性汎化は機械化が困難である.今回の文型パターン化では,文型パターン数も多く,膨大な人手コストがかかると予想されるため,意味属性の汎化においても,なるべく機械的な方法の実現が望まれる.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.