機械翻訳では複数の訳語を持つ語の訳語選択が問題となる。 解決の手法として結合価パターンは訳語選択の精度向上に有効である[1]。 しかし、実際の文は語順変更、省略等により現状の登録パターンで 結合価パターンがそのまま適用できない場合がある。 特に省略の場合、正しい結合価パターンが 導き出せない場合が多数あるため難しい問題となる。 よって候補パターンを出来る限り絞り、中から正しい結合価パターンを 導き出す事が、結合価パターンを用いる機械翻訳では重要となる。
過去の研究では、入力文を辞書登録パターンに対応させ、 パターンの照合については格要素が最も一致するパターンを選択する方式と、 それとは逆に辞書登録パターンを入力文に合わせる方式が提案されている[2]。 辞書登録パターンを入力文に合わせる方式は、 具体的には入力文の様相機能語や助詞に着目して特殊構文の可能性を検出し、 辞書登録パターンから可能な展開形を複数派生させ、展開形と 入力文と照合する方法である。(参考文献[2]より引用) 利点として、「れる、られる」の自発、尊敬、受身、可能の 判定や二重主格文の結合価パターン絞り込みの精度向上を実現している。 しかしながら、語順変更、省略は考慮されていない。
本研究では、入力文を辞書登録パターンに対応させる方式を用い、 パターン照合については名詞の意味属性、格助詞に着目した点数計算によるパターン照合を行う。 そして、語順変更、省略に対応した精度の高い結合価パターン対選択 方式の考案を目的とする。 基本として単文での入力文の形態素解析を行い、 既存のパターンで入力文との照合を行ってパターンを絞る。 照合の際には、語順変更に対応できるよう、語順を入れ換えた場合の照合も行う。 また、結合価パターンは受身、使役に対応していない事から、 格変化を用いて一時的に平叙文に戻す方法を使用する。 さらに候補パターンを一意に絞るため、 文を格要素ごとに区切り、格要素の持つ 名詞の意味属性の深さや格助詞の種類に着目する。 深さ、格助詞への点数付けを行い、 格要素ごとの点数の積の合計によって結合価パターンの候補を絞る事で、 省略部分の重要性を見極め、 正しいパターンを導き出す方法を提案、検証する。
点数付け、受身、使役に対応した格変化を用いて 単文300文について実験を行った結果、94%の精度で 正しい結合価パターンを選択する事が出来た。 しかしながら、受身、使役に対応した格変化はまだ改良の余地があり、 「は」「も」等の複数の格の性質を持つ格助詞の扱いについても 別法則を用いる必要がある事が分かった。
本稿では、第2章で結合価パターンについて述べ、 第3章では具体的な結合価パターンの照合方法について述べる。 第4章では受身等の追加法則について示す。 第5章では詳細な実験の方法を述べる。 そして第6章では実験の結果について述べ、 第7章で得られた結果の考察を述べる。