提供資産の種類と利用方法

下記のドキュメント類とパターン事例は、利用契約なしに参照することができます。データファイルやプログラムファイルの利用を希望される場合は、申し込みに先だってこれらの資料をご覧頂くようお願いします。

1.〜5.のファイルは、このページからダウンロードできますが、6.のドキュメントは、ブックプリント版のみですので、ダウンロードすることはできません。ご希望の方には、残部がある限り実費でお分けします。

なお、いずれも著作権は、「日本語表現意味辞書等管理委員会」によって管理されており、無断での複製、転載はできません。複製、転載等を希望されるときは、事務局にご相談してください。

  1. [PDF]研究開発総合報告書(約100頁, 616KB)
    研究終了報告書です。研究組織、研究実施内容と成果、成果発表リストなどが掲載されています。
  2. [PDF]研究開発総合報告OHP集(約280枚/4=70頁, 2.1MB)
    研究の背景と手順、非線形言語モデルと意味類型パターン辞書、パターン検索と翻訳への応用例などが掲載されています。
  3. [PDF]意味類型パターン記述言語仕様書(約240頁, 2.3MB)
    「意味類型パターン辞書」の各パターンの記述方法を定めた仕様書です。変数(17種類)/関数(157種類)/記号類(10種類)の記述方法の詳細が記述されています。重文複文の意味分類体系(227分類)用言意味辞書(6000語)/名詞意味辞書(6万語)も収録されています。
  4. [PDF]意味類型パターンの事例(約125パターン, 152KB)
    ご参考のため、意味類型パターン辞書ファイルから、単語レベル、句レベル、節レベルの意味類型パターン(100件余り)を抽出して収録したファイルです。上記の「意味類型パターン記述言語仕様書」と見比べて、意味類型パターンがどのような記述要素から構成されているかなどについてご確認下さい。
    <注意>このパターン事例集には、各パターンが分かりやすいよう、日本語例文と英語例文が付加してありますが、これらの例文は、提供される「意味類型パターン辞書ファイル」には含まれておりませんのでご注意下さい。
  5. [PDF]意味類型パターン辞書ファイルおよびパターン検索プログラムファイル説明書(約160頁, 623KB)
    「意味類型パターン辞書ファイル」のデータ記述形式、インストールの方法など、および、「パターンパーサープログラム」と「パターン意味検索プログラム」のアルゴリズム説明、機能仕様書、インストールマニュアル、操作マニュアルが収録してあります。
  6. 技術検討資料集(約2000頁, ブックプリント版のみ)
    研究の進め方や技術的問題に対する研究開発過程での検討結果(約600件)の中から、主要なもの(約200件)を取り出して編集したものです。意味類型パターン辞書やその検索プログラムの開発で発生した技術的な問題点とその解決方法などの詳細が分かる資料です。今後、同種の研究開発でご参考にして頂ければと思います。

<備考>論文など、既に外部発表済みの資料は、鳥バンクのホームページには収録しておりません。それらについては、上記1.の資料にリストが掲載されていますので、そちらをご覧下さい。

データとプログラムのファイル

「鳥バンク」で提供されるデータファイルとプログラムファイルは下記の通りです。これらは、「日本語表現意味辞書等管理委員会」と利用合意契約を結ぶことによって、「利用契約者専用ページ」からダウンロードできるようになります。利用合意契約の方法については、「提供データの利用方法」のページをご参照下さい。

  1. 意味類型パターン辞書ファイル(約26MB)
    日本語重文・複文対する単語レベル、句レベル、節レベルの意味類型パターン。(合計22.7万パターン対を収録したファイルです。単文は対象外ですので要注意)変数に付与された意味属性コードは暫定的なものです。パターン照合の制約条件として使用すれば絞り込みの効果が期待できますが、検索漏れが発生することもありますのでご注意下さい。
  2. 日本語意味分類辞書ファイル(約500KB)
    意味属性の体系に従ってまとめられた用言意味辞書(6,000語366分類)と名詞意味辞書(6万語364分類)のファイルです。変数の意味的制約条件として使用されているだけでな、パターンの意味分類の一部としても使用されています。 暫定的な単語意味辞書であり、今後ブラッシュアップされる見込みです。
  3. パターンパーサ・プログラムファイル(約600KB)
    パターン辞書のパターンと入力日本文の構成要素を対比し、適合するパターンのすべてを取り出すプログラムのソースコードです。 このプログラムを使用するには、連動する形態素解析プログラムとそれに合わせたインターフェースプログラム、及び、変数・関数などの定義ファイルが必要です。参考のため、「茶筌」用インターフェースの例が付与されています。鳥バンクのデモで使用されているパターンパーサとは異なるので注意してください。なお、形態素解析プログラムとして「茶筌」を利用する場合は、奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座(松本研究室)から借用してください。
  4. パターン意味検索プログラムファイル(約200KB)
    意味類型パターンに付与された構文分類コードや意味分類コードを用いて検索するプログラムのソースコードです。 日本語入力文を指定し、それと意味的に適合するパターンを検索するときは、形態素解析プログラムとそれに対するインターフェースプログラムが必要です。 このプログラムも、鳥バンクのデモで使用されている意味検索プログラムとは異なるので注意してください。

提供資産の利用方法

鳥バンクで提供される言語資産の基本は、「意味類型パターン辞書」であり、その他のものはいずれも、参考として提供されるものです。「意味類型パターン辞書」のご利用に当たっては、ご自分の利用目的に合わせて独自の利用環境を作成されることが必要です。ここでは、ご自分の計算機上に、日本語入力文(重文複文)に適合する文型パターン検索の仕組みを実現されることを想定して、アドバイスをします。

鳥バンクでは、パターン検索のプログラムとして、「パターンパーサ・プログラムファイル」と「パターン意味検索プログラム」をご提供していますが、これらのプログラムをダウンロードされてもそのままでは動きません。鳥バンクのパターン辞書は、入力文の形態素解析結果を使用して照合することを基本としています。入力文と意味類型パターン辞書との照合で、形態素解析結果を使用することを前提としているのは、構文解析の曖昧さを極力排除し、なるべく精度良い検索ができるようにすることを狙ったものです。

従って、検索の仕組みを実現するには形態素解析プログラムが必要ですが、鳥バンクでは、形態素解析プログラムは提供していません。提供している検索プログラムを使用される際は、ご自分の形態素解析プログラムの品詞コード体系に合わせたインターフェースの改造が必要です。

また、入力文とパターンを構造的に照合するには、入力文の構文解析情報を必要とする処理(句や節の判定など)も必要で、提供しているパターンパーサには、それらの判定機能も組み込まれています。パターン意味検索プログラムでは、入力文の節や接続の意味を判定する部分があり、この部分も、ご自分の形態素解析プログラムの解析結果に合わせて見直す必要があります。

以下、どのようにしたらご自分の環境に合わせられるかについて述べますので、参考にしてください。詳細については、プログラム説明書などを参照してください。

1.適合パターン構造的検索機能の実現

ご自分の形態素解析プログラムをお持ちの方は、提供されている「パターンパーサプログラム」の品詞体系を、ご使用される形態素解析プログラムの品詞体系に合わせることで、統語構造のレベル(変数に対する意味的制約条件を無視)での検索ができるようになります。デモのページで使用されているパターンパーサは、変数に対する意味的制約条件を無視する設定となっていますから、これと同等の機能が実現できるとおもいます。

ご自分の形態素解析プログラムをお持ちでない方は、奈良先端科学技術大学院大学から公開されている形態素解析プログラム「茶筌」を入手し、使用されることをお勧めします。鳥バンクから提供している「パターンパーサプログラム」は、「茶筌」とのインターフェースがとれるようにしてありますので、検索環境は比較的容易に実現できると思います。

次に、変数に付与された意味的な制約条件を生かして、より意味的に適合性の高いパターンを詮索する方法についてご説明します。パターン辞書に収録された各パターンの変数には、その変数に適合する表現(単語や句)の意味的な制約条件が付与されています。この意味的な制約条件としては、この研究で独自に開発した意味分類体系に基づくものと、「日本語語彙体系」(岩波書店1997)に掲載された意味分類体系に基づくものの2種類が付与されています。どちらを使うかは、任意ですが、前者を使う場合は、ご提供している「日本語意味分類辞書ファイル」の情報が使えるのに対して、後者を使用する場合は、「日本語語彙体系」の第2巻〜4巻に収録された単語意味辞書が必要になります。前者を使う方が簡単ですので、それをお勧めします。

その場合、変数に付与された意味的制約条件の適合性を判定するには、入力文を形態素解析した結果を対象に、提供されている「日本語意味分類辞書ファイル」を使用して単語(もしくは句、節)の意味属性を判定するプログラムを作成する必要があります。

ご提供しているパターンパーサはこの機能を持っていますが、このパーサの機能は使用される形態素解析プログラムに依存します。その仕様(プログラム説明書とソースコード)を参考にしながら、ご自分の形態素解析プログラムの解析結果に合わせて改造して頂くと良いとおもいます。

2.適合パターン意味的検索機能の実現

入力文を使用せず、検索したいパターンの統語分類コードや意味分類コード(節間意味コードと各節の意味コード)を人間が直接指定する場合は、形態素解析プログラムを使用する必要はありません。通常のデータベースパッケージなどを利用して、簡単に検索プログラムを作ることができます。

しかし、入力文に対して、それに意味的に適合するパターンが検索できるようにするためには、入力文を形態素解析し、その結果から、入力文の持つ統語分類コードや意味分類コードを判定するためのプログラムを作成することが必要となります。

判定する分類コードは「統語分類コード」、「意味分類コード」、「節間キーワード」の3種類です。このうち、「意味分類コード」は、さらに、「節間意味分類コード」(主節と従属節間の意味的な関係を表すもの)と「節の意味コード」(主節、従属節の持つ意味を分類したもの)に分類されます。

これらの意味分類体系は「意味類型パターン記述言語仕様書」に定義されております。実際の入力文の解析では、検索に使用するコードのみが判定できれば結構です。入力文の意味の判定のアルゴリズムについては、「意味類型パターン辞書ファイルおよびパターン検索プログラムファイル説明書」を参照してください。

以上によって、検索のための統語分類コードと意味分類コードが決まった後、ご提供している意味検索プログラムでは、MySQLのプログラムを用いて意味類型パターン辞書を検索しています。このプログラムは、公開されたフリーのプログラムで、インターネットからダウンロードできますのでそれをお使い下さい。

なお、MySQLのプログラムを使用するには、あらかじめ、意味類型パターン辞書をMySQLの形式に変換しておくことが必要ですが、ご提供しているプログラムには、この変換のためのプログラムは組み込まれていませんので、ご注意下さい。

3.検索精度を向上させるために

いずれにしても、日本語入力文(重文、複文)に対する意味類型パターン辞書のカバー率は、パターン辞書の品質だけでなく、使用する形態素解析プログラムの品質や検索プログラムのアルゴリズムにも大きく依存します。カバー率を最大限に向上させるためには、ご自分の形態素解析プログラムの品詞体系に合わせて、独自の検索プログラムをお作り頂くのが賢明かと思います。

なお、構文解析プログラムをお持ちの方は、その結果を使用した検索プログラムを作成することもできます。その場合は、変数に対する入力文要素の適合条件の判定処理などが単純となりますが、形態素解析の誤りだけでなく構文解析の誤りに対しても正しい検索結果は得られなくなりますからご注意下さい。