next up previous contents
次へ: 目次 上へ: 概要 戻る: 第I部概要   目次

第II部概要

最近, 分かりやすい文への書き換えや要約や機械翻訳への適用を目指した言 い換え技術に関する研究が盛んである. 言い換えのための知識(事例や規則)とし ては, 語彙資源やコーパスからの収集が代表的である. このうち, コーパ スからの収集の方法において, 対訳コーパスから同一の英文に対する 複数の日本文を用意し, 日本文どうしのアライメントを取る手法が提案されてい る. しかしこの手法は, 得られる日本文の組の数が少なく, かつ組内 の日本文の文数も少ないと考えられる.

そこで本研究は対訳コーパスから作成された文型パターンから, 同一の英語パターン に対する複数の日本語パターンを用意し, 日本語パターンのアライメントを取る 手法を提案した.

今回は, 単文文型パターン辞書に提案手法を用い, 英語パターンが同一で日本語パ ターンが異なる日本語パターンの組を収集したときの, 日本語パターンの組の量 を調査した. また, 得られた日本語パターンの組に対し, 言い換えの知識が収集 できた割合を調査した.

調査方法として, 単文パターン辞書において英語パターンが同一で日本語パター ンが異なる日本語パターンの組をランダムで100組抽出し, その日本語パターン に対し言い換えの知識が存在するかを調査した.

調査の結果, 単文文型パターン215,342件から提案手法によって 日本語パターンの組を4,077組収集することができた. また, 収集した日本語パターンの組に言い換えの知識が含まれている割合を調査 したところ, ランダムで100組中, 71組の日本語パターンは言い換えの知識が含 まれていることが分かった.



平成18年3月24日