下記のドキュメント類とパターン事例は、利用契約なしに参照することができます。データファイルやプログラムファイルの利用を希望される場合は、申し込みに先だってこれらの資料をご覧頂くようお願いします。
1.〜5.のファイルは、このページからダウンロードできますが、6.のドキュメントは、ブックプリント版のみですので、ダウンロードすることはできません。ご希望の方には、残部がある限り実費でお分けします。
なお、いずれも著作権は、「日本語表現意味辞書等管理委員会」によって管理されており、無断での複製、転載はできません。複製、転載等を希望されるときは、事務局にご相談してください。
<備考>論文など、既に外部発表済みの資料は、鳥バンクのホームページには収録しておりません。それらについては、上記1.の資料にリストが掲載されていますので、そちらをご覧下さい。
「鳥バンク」で提供されるデータファイルとプログラムファイルは下記の通りです。これらは、「日本語表現意味辞書等管理委員会」と利用合意契約を結ぶことによって、「利用契約者専用ページ」からダウンロードできるようになります。利用合意契約の方法については、「提供データの利用方法」のページをご参照下さい。
鳥バンクで提供される言語資産の基本は、「意味類型パターン辞書」であり、その他のものはいずれも、参考として提供されるものです。「意味類型パターン辞書」のご利用に当たっては、ご自分の利用目的に合わせて独自の利用環境を作成されることが必要です。ここでは、ご自分の計算機上に、日本語入力文(重文複文)に適合する文型パターン検索の仕組みを実現されることを想定して、アドバイスをします。
鳥バンクでは、パターン検索のプログラムとして、「パターンパーサ・プログラムファイル」と「パターン意味検索プログラム」をご提供していますが、これらのプログラムをダウンロードされてもそのままでは動きません。鳥バンクのパターン辞書は、入力文の形態素解析結果を使用して照合することを基本としています。入力文と意味類型パターン辞書との照合で、形態素解析結果を使用することを前提としているのは、構文解析の曖昧さを極力排除し、なるべく精度良い検索ができるようにすることを狙ったものです。
従って、検索の仕組みを実現するには形態素解析プログラムが必要ですが、鳥バンクでは、形態素解析プログラムは提供していません。提供している検索プログラムを使用される際は、ご自分の形態素解析プログラムの品詞コード体系に合わせたインターフェースの改造が必要です。
また、入力文とパターンを構造的に照合するには、入力文の構文解析情報を必要とする処理(句や節の判定など)も必要で、提供しているパターンパーサには、それらの判定機能も組み込まれています。パターン意味検索プログラムでは、入力文の節や接続の意味を判定する部分があり、この部分も、ご自分の形態素解析プログラムの解析結果に合わせて見直す必要があります。
以下、どのようにしたらご自分の環境に合わせられるかについて述べますので、参考にしてください。詳細については、プログラム説明書などを参照してください。
ご自分の形態素解析プログラムをお持ちの方は、提供されている「パターンパーサプログラム」の品詞体系を、ご使用される形態素解析プログラムの品詞体系に合わせることで、統語構造のレベル(変数に対する意味的制約条件を無視)での検索ができるようになります。デモのページで使用されているパターンパーサは、変数に対する意味的制約条件を無視する設定となっていますから、これと同等の機能が実現できるとおもいます。
ご自分の形態素解析プログラムをお持ちでない方は、奈良先端科学技術大学院大学から公開されている形態素解析プログラム「茶筌」を入手し、使用されることをお勧めします。鳥バンクから提供している「パターンパーサプログラム」は、「茶筌」とのインターフェースがとれるようにしてありますので、検索環境は比較的容易に実現できると思います。
次に、変数に付与された意味的な制約条件を生かして、より意味的に適合性の高いパターンを詮索する方法についてご説明します。パターン辞書に収録された各パターンの変数には、その変数に適合する表現(単語や句)の意味的な制約条件が付与されています。この意味的な制約条件としては、この研究で独自に開発した意味分類体系に基づくものと、「日本語語彙体系」(岩波書店1997)に掲載された意味分類体系に基づくものの2種類が付与されています。どちらを使うかは、任意ですが、前者を使う場合は、ご提供している「日本語意味分類辞書ファイル」の情報が使えるのに対して、後者を使用する場合は、「日本語語彙体系」の第2巻〜4巻に収録された単語意味辞書が必要になります。前者を使う方が簡単ですので、それをお勧めします。
その場合、変数に付与された意味的制約条件の適合性を判定するには、入力文を形態素解析した結果を対象に、提供されている「日本語意味分類辞書ファイル」を使用して単語(もしくは句、節)の意味属性を判定するプログラムを作成する必要があります。
ご提供しているパターンパーサはこの機能を持っていますが、このパーサの機能は使用される形態素解析プログラムに依存します。その仕様(プログラム説明書とソースコード)を参考にしながら、ご自分の形態素解析プログラムの解析結果に合わせて改造して頂くと良いとおもいます。
入力文を使用せず、検索したいパターンの統語分類コードや意味分類コード(節間意味コードと各節の意味コード)を人間が直接指定する場合は、形態素解析プログラムを使用する必要はありません。通常のデータベースパッケージなどを利用して、簡単に検索プログラムを作ることができます。
しかし、入力文に対して、それに意味的に適合するパターンが検索できるようにするためには、入力文を形態素解析し、その結果から、入力文の持つ統語分類コードや意味分類コードを判定するためのプログラムを作成することが必要となります。
判定する分類コードは「統語分類コード」、「意味分類コード」、「節間キーワード」の3種類です。このうち、「意味分類コード」は、さらに、「節間意味分類コード」(主節と従属節間の意味的な関係を表すもの)と「節の意味コード」(主節、従属節の持つ意味を分類したもの)に分類されます。
これらの意味分類体系は「意味類型パターン記述言語仕様書」に定義されております。実際の入力文の解析では、検索に使用するコードのみが判定できれば結構です。入力文の意味の判定のアルゴリズムについては、「意味類型パターン辞書ファイルおよびパターン検索プログラムファイル説明書」を参照してください。
以上によって、検索のための統語分類コードと意味分類コードが決まった後、ご提供している意味検索プログラムでは、MySQLのプログラムを用いて意味類型パターン辞書を検索しています。このプログラムは、公開されたフリーのプログラムで、インターネットからダウンロードできますのでそれをお使い下さい。
なお、MySQLのプログラムを使用するには、あらかじめ、意味類型パターン辞書をMySQLの形式に変換しておくことが必要ですが、ご提供しているプログラムには、この変換のためのプログラムは組み込まれていませんので、ご注意下さい。
いずれにしても、日本語入力文(重文、複文)に対する意味類型パターン辞書のカバー率は、パターン辞書の品質だけでなく、使用する形態素解析プログラムの品質や検索プログラムのアルゴリズムにも大きく依存します。カバー率を最大限に向上させるためには、ご自分の形態素解析プログラムの品詞体系に合わせて、独自の検索プログラムをお作り頂くのが賢明かと思います。
なお、構文解析プログラムをお持ちの方は、その結果を使用した検索プログラムを作成することもできます。その場合は、変数に対する入力文要素の適合条件の判定処理などが単純となりますが、形態素解析の誤りだけでなく構文解析の誤りに対しても正しい検索結果は得られなくなりますからご注意下さい。