next up previous contents
次へ: 対訳パターンを用いた言い換え知識の収集方法 上へ: 単文文型パターンの言い換えの抽出 戻る: 単文文型パターンの言い換えの抽出   目次

はじめに

最近, 分かりやすい文への書き換えや要約や機械翻訳への適用を目指した言 い換え技術に関する研究が盛んである. 言い換えのための知識(事例や規則)とし ては, 語彙資源やコーパスからの収集が代表的である[5]. このうち, コーパ スからの収集の方法において, [1]は対訳コーパスから同一の英文に対する 複数の日本文を用意し, 日本文どうしのアライメントを取る手法を提案している. この手法は, 得られる日本文の組の数が少なく, かつ組内 の日本文の文数も少ないと考えられる.

本研究は対訳コーパスから作成された文型パターンから, 同一の英語パターン に対する複数の日本語パターンを用意し, 日本語パターンのアライメントを取る 手法を提案する.

今回は, 単文文型パターン[2]に提案手法を用い, 英語パターンが同一で日本語パ ターンが異なる日本語パターンの組を収集したときの, 日本語パターンの組の量 を調査する. また, 得られた日本語パターンの組に対し, 言い換えの知識が収集 できた割合を調査する.

結果として, 単文文型パターン215,342件から提案手法によって 日本語パターンの組を4,077組収集することができた. また, 収集した日本語パターンの組に言い換えの知識が含まれている割合を調査 したところ, ランダムで100組中, 71組の日本語パターンは言い換えの知識が含 まれていることが分かった.

本稿第ニ部の構成は以下の通りである. 第2章で本研究で提案した手法の原理と 特徴を述べる. 第3章で調査対象ついて述べる. 第4章で調査結果を述べる. 第5章 で第4章で得られた結果よりさらなる調査を行う. 第6章でそれぞれの調査結果か ら考察を行い, 第7章でまとめを述べる.



平成18年3月24日