「鳥バンク」は、自然言語処理のための言語知識ベースを収録したデータバンクです。日本語重文と複文を対象とする「意味類型パターン辞書(22.7万件)」及び、それに関連したデータやドキュメントが収録されています。著作権等は「日本語表現意味辞書等管理委員会(代表 池原悟)」が管理し、提供に関する業務は、事務局(株.学際統合創研)が代行しています。
鳥バンクは、日本語表現意味辞書などの知的成果を広く流通・利用されて開かれた言語コミュニティーの形成・拡大・発展に資し、以って言語文化等の発展に寄与るために、著作者等の厚意により原則無償で(利用態様により実費を徴することがあります)提供される知的財産です。但し、当面は、研究開発目的で具体的な利用計画等がある研究開発者に限ります。(注)
知的成果の流通・利用では、著作者等の権利を尊重し、且つ、適法性を確保することが大切です。鳥バンクの適正な流通と公正な利用を実現するために、利用者には利用合意契約書(別掲)の定めの履行が求められています。鳥バンクの利用を希望される方は、利用合意契約書を熟読されて貴方が尽くすべき義務等の内容を理解され、それに合意し実行できると判断されたとき、鳥バンク利用申込手続きフロー(別掲)に従い、利用申込みの手続きをして下さい。
鳥バンクが貴方の研究開発に寄与し、素晴らしい成果の創出に役立つことを祈念申し上げます。
(注)商業利用については、このホームページでは扱っておりません。ご希望のある方は、どうぞ、事務局にご相談下さい。
2007年(平成19年)4月1日
日本語表現意味辞書等管理委員会 代表 池原 悟
(代行:株.学際統合創研)
サイトが鳥取大学に置かれていることから、「ペントリーバンク」(ペンシルバニア大のデータバンク)に倣って「鳥バンク」と命名されました。鳥のように国境を越えて発展して欲しいという願いも込められています。
鳥バンクの言語知識ベースは、述部数(節数)2または3の「重文・複文」を対象としています。単文は対象としていませんのでご注意下さい。
なお、単文は単一事象を表現するための言語表現の枠組みだと考えられるのに対して、重文、複文は複数の事象間の関係を表現するための枠組みだと言えます。単文については、すでに、結合価パターン辞書(「日本語語彙大系」、岩波書店1997)が開発されていますので、そちらを参照して下さい。
このホームページに収録された辞書とドキュメントは、下記のプロジェクトで研究開発されたものです。
従来の自然言語処理では、言語表現の線形性を仮定した要素合成法が基本とされてきましたが、現実には非線形な表現が多く、表現を単語に分解する過程で全体の意味が失われることが問題でした。この問題に挑戦するため、この研究では、「意味類型論(セマンティック・タイポロジ)」と「等価的類推思考の原理」の2つの観点から言語の「意味的等価変換方式」を提案し、それを実現するため、日本語重文複文を対象に意味類型パターン辞書を作成しました。
「意味的等価変換方式」は、表現構造の持つ意味に着目し、与えられた言語表現を意味的に等価な別の表現に変換するもので、以下の2つのステップから構成されます。
第1は、「人間の対象把握作用には、思考形式とも言うべきある種のフレームワークが存在し、それが言語表現に反映される」と言う「意味類型論」(有田潤1987)の考えに基づくもので、意味のまとまる表現構造をパターン化し、意味的に分類しました。
第2は、「人間の独創性は、何らかの共通点を背景とした類推思考から生まれる」と言う「等価的類推思考の原理」(市川亀久彌1963)を言語表現に適用するもので、与えられた表現構造を言語共軛な概念(真理項と呼ぶ)を介して、他の表現構造に写像します。異なる言語間の表現に変換する場合は、機械翻訳の技術となり、同じ言語内で変換する場合は、「言い換え技術」となります。
本方式は、意味的に非線形な表現構造を分解不能な単位とすることにより全体を線形近似に持ち込むものです。意味処理の基本技術として多くの応用が期待されます。