概要
情報化社会の発展によりテキストが電子化され、テキストの大量管理・転送・加工・共有が可能となった。
それと同時に、人間が処理しなければならない情報量も増加している。
Web上の情報を自動検索する技術が盛んに研究されているが、検索した
情報の要旨を判断する作業は人手に頼らざるを得ない。
近年、人手による文書要旨判断の支援を目的とした、文書要約手法の研究が盛んに
行なわれており、その多くは、重要と見なせる文を抽出した後、冗長要素を削減
する手法[1]を採用している。しかし、抽出文同士に意味的な繋がりがないため
要約文の可読性が低いという問題があり、この問題を解決するため、単語の意味
的連想関係ネットワークを使用する手法[2]等が提案されている。
本研究は、前述の問題点を解決する新しい手法として、手法[2]の意味的関係ネッ
トワークの概念をヒントにして、結合価パターン[3]と意味属性関係[4]で構成す
る「レベルネットワーク要約手法」を提案する。
「レベルネットワーク要約手法」とは、文書のすべての構成要素同士を意味的関
係のリンクを張ったネットワーク上に再配置し、文意の中心からの距離によって
重要度領域を区切ることで、各要素に重要度を付与する手法である。これにより、
冗長要素を
拾わない重要要素選択と、意味的連続性を持った要約文の生成が可能になる。
そして、今回の実験の結果、機械要約の観点から「レベルネットワーク要約」手法は非常
に高い要約能力を持つことが実証されたが、人間特有の要約観点からは十分に満
足できる結果とは言えなかった。
機械要約と人間特有の要約は根本的に方法論が異なっており、この両者を満足さ
せる要約文を作成するのは困難なことである。しかし、機械要約を一般使用に耐えうる
技術として確立させるためには、いかに人間の要約に近づけるかが重要となる。
「レベルネットワーク要約」手法に、研究期間の都合上採用できなかった「意味
的特異点となる直感的重要語」情報を
レベルネットワークに意味的特異点として組み込む事で、今後より一層の要約能力向上が期待できる。
目次
1 はじめに 1
2 レベルネットワーク要約概要 2
3 レベルネットワーク要約アルゴリズム 3
3.1 文単位ネットワークの定義 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 4
3.2 文意中枢の選定 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 5
3.3 意味属性連結 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 6
3.4 修飾句の優位関係 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 9
3.5 要約文生成 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 10
4 要約評価実験
4.1 実験方法 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 11
4.2 評価サンプル ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 12
4.3 要約評価実験結果 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 16
4.4 結果考察 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 17
5 おわりに 18
6 参考文献 19
図目次
1 レベルネットワーク要約概略図 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 2
2 文単位ネットワーク具体例 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 4
3 TF*IDF加算具体例 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 5
4 意味属性による連結関係図(1) ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 6
5 意味属性による連結関係図(2) ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 7
6 意味属性による連結関係図(3) ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 8
7 意味属性による連結関係図(4) ・ ・
・ ・ ・
・ ・ ・
・ ・ ・ ・
・ ・ ・ ・ ・ ・ ・ ・ 8
8 修飾句の優位関係図 ・ ・
・ ・ ・
・ ・ ・
・ ・ ・ ・
・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 9
9 優先順位入れ替え図 ・ ・
・ ・ ・
・ ・ ・
・ ・ ・ ・
・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 10
10 文単位ネットワーク構成具体例 ・ ・
・ ・ ・
・ ・ ・
・ ・ ・ ・
・ ・ ・ ・ ・ ・ 13
11 意味属性連結具体例 ・ ・
・ ・ ・
・ ・ ・
・ ・ ・ ・
・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 14
表目次
1 TF*IDF計算例 ・
・ ・ ・ ・
・ ・ ・ ・
・ ・ ・ ・
・ ・ ・ ・
・ ・ ・ ・ ・ ・ ・ ・ ・ 5
2 意味属性距離計算例
・ ・ ・ ・
・ ・ ・ ・
・ ・ ・ ・
・ ・ ・ ・
・ ・ ・ ・ ・ ・ ・ ・ 6
3 要約評価実験結果
・ ・ ・ ・
・ ・ ・ ・
・ ・ ・ ・
・ ・ ・ ・
・ ・ ・ ・ ・ ・ ・ ・ 15
1 はじめに
従来の文書要約手法の多くは、重要と見なせる文を文単位で抽出後、文の冗長要素
を削除できないため、不必要な要素を含めた要約文生成を行なう事になる。その
ため、重要と見なせる文を抽出した後、冗長要素を削減する手法[1]を採用して
いる。しかし、抽出文同士に意味的関連性が考慮されていな
いため可読性が低く、抽出文同士を結び付けるための再加工アルゴリズムが必要
になるという問題もある。この問題を解決するため、単語の意味
的連想関係ネットワークを使用する手法[2]等が提案されている。
手法[2]は文章中に用いられる単語間に連想関係という概念を導入し、単語間ネッ
トワークを作成することにより、文章の意味を考慮しながら、表層から得られる
情報のみに基づいて、文意を表している思われる単語を抽出する手法である。こ
の手法では、出現頻度が低い単語も抽出対象とするため、文意をより正確に反映
する単語の抽出が可能となる。しかし、基点語の選び方により抽出されてくる単
語が異なってくるという問題があった。
そこで、本研究は、前述の問題点を解決する新しい手法として、手法[2]の意味的関係ネッ
トワークの概念をヒントにして、結合価パターン[3]と意味属性関係[4]で構成する、定型表現と意味接続関係を持つネットワークを
作成して要約文を生成する手法を「レベルネットワーク要約手法」として提案する。
「レベルネットワーク要約手法」とは、文書のすべての構成要素を単語単位に解析し、各単語の意味
的連結によるネットワークを作成して文書構成要素を再配置する。そして、文意の
中心からの距離によってを重要度領域で区切り、文書構成要素に重要度順位付けを行な
い、意味的に必要な部分のみを選択して文を再構成する。これにより、冗長要素
をあらかじめ除外し、かつ意味的な繋がりを持った要約文構成要素の抽出が可能
となり、より人間の要約能力に近い要約文生成を実現する手法である。
次節以降では、第2節で手法概要を、第3節でアルゴリズムを、第4節で手法の有効性評価実験を行なう。
2 レベルネットワーク要約概要
文書の最小構成単位である単語は、結合価パターンによって文意の最小単位であ
る節(本研究ではこれを結合価キーワードと呼ぶ)に区切る事ができる。
この結合価キーワード同士を意味属性関係による意味的類似性によって連結したネットワークを作成こと
により、文書がどのような意味的な連結関係で構成されているのかが明らかにな
る。
文意の中心をネットワークの中心とし、中心からの意味的な距離により領域と領
域内部の構成要素にレベル付けを行なう。そして、そのレベルを基準にして文を
再構成したものを要約文とする。これがレベルネットワーク要約の概要である。
図1に、レベルネットワーク要約の概略図を示す。
図1 レベルネットワーク要約概略図
3 レベルネットワーク要約アルゴリズム
レベルネットワーク要約は、以下5つのアルゴリズムで構成する。
3.1 要約対象記事の解析
・ 文書の形態素解析
・ 結合価パターン適用による結合価キーワー
ドの決定
・ 文単位ネットワークの作成
3.2 文意中枢の選定
・ TF*IDFの算出
・ TF*IDFによる文単位ネットワークの重要度付け
3.3 意味属距離による連結
・ 各結合価キーワードの意味属性距離比較
・ 最短意味属性連結と絶対・相対レベル決定
・ 補完意味属性連結によるサブネットワー
ク連結
3.4 修飾要素の優位関係の決定
・ 修飾句の重要度別分類
3.5 レベル選択要約文生成
・ 必須修飾句の追加
・ 前後関係・接続関係を考慮したレベル調整と語尾変換
・ 指定要約率に対応した具体修飾句と接続的修飾句
の追加
なお、3.4、3.5の手順は計算機処理ではなく、著者の主観による手作業で行なう。
3.1 要約対象記事の解析
形態素解析[5]により、与えられた文を形態素・
語の並びに分解し、それぞれの形態素・語の品詞を決定するとともに、名詞の意味属性コードを調べる。
形態素解析の結果決定した文書中の動詞について、結合価パターンを適用して、
文を文意の最小構成単位である結合価キーワードに区切る。
結合価キーワードを図式化すると、図2の例ような、文の中心動詞と結合価キー
ワードを結ぶ階層的構造となる。これを「文単位ネットワーク」として定義する。
具体例
原文:
政府が記者団に「内閣改造がJCO事故によって延期された」と発表
した。
結合価パターン:
延期する : N[humain]が+N[action]を+V
政府(が)内閣改造(を)延期する
発表する : N[humain]が+N[humain]に+Sと+V
政府(が)記者団(に)S(と)発表する
付属語による格助詞対応の変化:
延期された : N[action]が+V
内閣改造(が)延期された
結合価パターンの合成:
政府(が)記者団(に)内閣改造(が)延期された(と)発表した
3.2 文意中枢の選定
結合価キーワードの重要度にはTF*IDFを使用する。TF値とは、要約対象文書の対象単語頻度であり、IDF値とは、94年毎日新聞109300記事、213026単語から算出した対象単語の出現頻度である。
名詞 | TF | IDF | TF*IDF |
政府 | 2 | 2.48 | 4.96 |
記者団 | 1 | 3.79 | 3.79 |
内閣改造 | 1 | 7.40 | 7.40 |
JCO事故 | 3 | 6.93 | 20.80 |
図3 TF*IDF加算具体例
各結合価キーワードのTF*IDF値を中心動詞に加算する。この時、中心動詞との階
層的距離に応じて修飾句のTF*IDF値に修正を加える。図3の例ならば、中心動詞
と距離2の修飾句「JCO事故」のTF*IDF値は1/2になる。
3.3 意味属性連結
図4 意味属性による連結関係図(1)
文意中枢となる文単位ネットワークを絶対レベルLv.1と定義し、Lv.1に含まれる結合価キー ワードと、他の文単位ネットワークの結合価キーワードとの意味属性距離を比 較し、最短となるものを選択する。こうして結ばれた結合価キーワードを含む文単位ネットワークを、Lv.2と定義する。
例
「東京都千代田区の国立劇場」と「陛下」の意味属性距離計算例
名詞 | 陛下 | 陛下 | 陛下 | 陛下 | |
名詞 | 意味属性コード | 43 | 320 | 163 | 173 |
東京都 | 464 | 5.00 | 5.50 | 6.00 | 6.00 |
東京都 | 364 | 2.75 | 3.00 | 3.25 | 3.25 |
千代田区 | 464 | 5.00 | 5.50 | 6.00 | 6.00 |
千代田区 | 364 | 2.75 | 3.00 | 3.25 | 3.25 |
国立劇場 | 409 | 6.00 | 6.25 | 7.00 | 7.00 |
結合価キーワードの意味属性距離=結合価キーワードに含まれ
る名詞の意味属性
距離の総平均
(表2の場合、平均意味属性距離=4.79)
図5 意味属性による連結関係図(2)
同様に、Lv.1の文単位ネットワークのもうひとつの結合価キーワードと他の文単位ネットワークとの意
味属性距離を比較し、最短となるものを選択する。
この際、Lv.2の領域に属する文単位ネットワークが複数存在するため、文単位ネッ トワークの中心動詞のTF*IDF値を比較し、相対レベルを付与する。絶対レベル と相対レベルの組み合わせによって、文単位ネットワークの重要度順位は図5の 場合、重要度の高い順に、Lv.1、 Lv.2(1)、Lv.2(2)となる。
同様に、Lv.2に含まれる結合価キーワードと、未選択の文単位ネットワークの結合
価キーワードとの意味属性距離比較を行ない、最短となるものを選択し、Lv.3の
文単位ネットワークを定義し、相対レベルを付与する。
ここで、Lv.3には未選択の結合価キーワードがなくなるが、未選択の文単位ネッ
トワークは残っている。その残った文単位ネットワークを最下位Lv.4とする。
最下位Lv.4の結合価キーワードと、上位レベルの結合価キーワードとの意味属性 距離を比較し、最短となるものを選択する。これを、補完意味属性連結と呼ぶ。 最下位レベルは、補完意味属性連結によって連結される、上位の文単位ネットワー クのレベルに依存するサブネットワークとして取扱う。
3.4 修飾句の優位関係
次に、修飾句が所属している文単位ネットワークのレベルに基づいて修飾句の優
位関係を決定し、修飾句を図8のように必須修飾句、具体修飾句、接続的修飾句
の3つに分類する。 この分類は、要約文生成時の文字数調整に使用する。
必須修飾句は、図8の例では「私は町を訪れた」という最小単位の文では掴むこ
とのできない事象(または行為)を修飾するものである。「10年前に住んでいた町」という情報
が、「訪れた」という中心動詞をより具体化することができる、意味的に省略で
きない修飾句である。
具体修飾句とは、動詞を修飾する時制・位置・数量関係である。 具体修飾句の
重要度は修飾している動詞の重要度に依存する。
接続的修飾句とは、文頭で接接続詞的に使用される修飾句である。要約文の前後 関係を表し、可読性調整において使用する。
3.5 要約文生成
4 要約評価実験
レベルネットワーク要約手法は新提案であるため、他の要約手法と単純
に比較する事はできない。
よって要約評価実験は、自己相対評価形式で行なう。
4.1 実験方法
要約評価は、以下の3種類の文書について要約率を50%、25%に設定して、7人の被験
者を要約手法知識のある被験者と要約手法知識のない被験者とにグループ分けし、
文の読み易さを「人間と同等の要約、良い要約、ある程度の要約、悪い要約、使い物にならない要約」の5段階で評価する。
次項以降に、評価サンプルの原文、文単位ネットワーク構成図、意味属性連結関 係構成図、要約率50%、要約率25%の例を示す。
4.2 評価サンプル
原文(662文字)
政府主催の「天皇陛下御在位十年記念式典」が十二日午後、天皇、皇后両陛下を
迎えて東京都千代田区の国立劇場で開催され、小渕恵三首相、衆参両院議長、最
高裁判長官ら約千三百人が参加した。陛下はお言葉で、阪神大震災やソ連崩壊な
どに触れながら十年間を振り返り「今日、わが国の経済や社会は大きな課題に直
面しています。国民の英知と努力によってこれらの困難が克服されることを確信
しています」と述べられた。同日は宮内庁庁舎前で一般参賀が行われ、午後四時
すぎの終了時までに約八千五百人が記帳した。各地の郵便局では記念切手を発売、
金融機関では記念の五百円白銅貨の引き換えも始まった。
式典では君が代斉唱の後、小渕首相が「人々の幸せと平和を祈られ、国民の悲し
みをご自身の悲しみとしてお受け止めになる両陛下のお姿を拝見して私どもは強
い感銘を受け、勇気づけられました」と式辞を述べ、続いて伊藤宗一朗衆議院議
長らがあいさつした。
お言葉先立ち、世界的チェロ奏者ヨーヨーマさんの演奏や児童合唱団らによるコー
ラスが披露され、陛下が一九七五年に沖縄県を初訪問した際に詠んだ琉歌に皇后
さまが曲を付けた「歌声の響き」が演奏されると会場から拍手がわいた。
この後、皇居前広場を中心に、民間や超党派の国会議員団体が主催する「天皇陛
下御即位十年をお祝いする国民祭典」が開かれた。
各界著名人が出席して開かれた祝賀式典では、両陛下もちょうちんを手に二重橋に立ち、約二万五千人の参加者を前に「これからの日々が、少しでも平和で希望に満ちたものとなるように願っています」とお言葉を述べた。
要約率50%(331文字以下)(331文字)
政府主催の「天皇陛下御在位十年記念式典」が十二日午後、天皇、皇后両陛下を迎えて東京都千代田区の国立劇場
で開催された。
陛下はお言葉で、阪神大震災やソ連崩壊などに触れながら十年間を振り返り「今日、わが国の経済や社
会は大きな課題に直面しています。国民の英知と努力によってこれらの困難が克服されることを確信し
ています」と述べられた。
祝賀式典では、両陛下もちょうちんを手に二重橋に立ち、約二万五千人の参加者を前に「これからの
日々が、少しでも平和で希望に満ちたものとなるように願っています」とお言葉を述べた。
式典では、小渕首相が「人々の幸せと平和を祈られ、国民の悲しみをご自身の悲しみとしてお受け止め
になる両陛下のお姿を拝見して私どもは強い感銘を受けました」と式辞を述べた。
要約率25%(165文字以下)(157文字)
政府主催の「天皇陛下御在位十年記念式典」が、天皇、皇后両陛下を迎えて東京都千代田区の国立劇場
で開催された。
陛下はお言葉で、阪神大震災やソ連崩壊などに触れながら十年間を振り返り「今日、わが国の経済や社
会は大きな課題に直面しています。国民の英知と努力によってこれらの困難が克服されることを確信し
ています」と述べられた。
4.3 要約評価実験結果
要約手法知識グループ | 要約手法知識(有) | 要約手法知識(無) | ||
要約率 | 25% | 50% | 25% | 50% |
5(人間と同等の要約) | 8% | |||
4(良い要約) | 42% | 84% | ||
3(ある程度の要約) | 42% | 22% | 56% | |
2(悪い要約) | 16% | 8% | 45% | 33% |
1(使い物にならない) | 33% | 11% |
7人の被験者によって3種類の文書で要約率25%、50%で作成した要約文を5段階評価した
結果を表3に示す。なお、被験者知識グループの分類は著者の主観によって行
ない、
サンプル文書と要約手法への慣れによる評価の揺れを防ぐため、実験は1回のみ
とした。
その結果、要約手法知識のある被験者グループにおいては、要約率25%で「良い
要約orある程度の
要約」は84%、要約率50%では「人間と同等の要約or良い要約」が92%に達し、
非常に良好な結果を得ることができた。
これに対し、要約手法知識のない被験者グループにおいては、要約率25%で「ある程度
の要約」は22%、要約率50%では「ある程度の要約」は56%に止まるという結果
になった。
4.4 結果考察
要約手法知識のある被験者グループ
要約率25%では84%の被験者が「ある程度or良い要約」、要約率50%では
92%の被験者が「良い要約or人間と同等」と評価した。
このように高い評価が得られた理由として、要約手法知識のある被験者は、機械要
約がいかに複雑で困難なものであるかを理解しており、かつ文書構造と情報量
の保持という、要約効率を重視する機械要約評価を基準にして評価した結
果であることが挙げられる。
要約率については、要約率50%で「良い評価」以上が92%、要約率25%では「良い要 約」は42%となり、機械要約の実用の目安となる要約率30%でも、かなり高い精度 が期待できる結果となった。
要約手法知識のない被験者グループ
要約率25%では22%の被験者が「ある程度の要約」、要約率50%では56%の被験
者が「ある程度の要約」と評価した。
このように要約手法知識のある被験者と対照的な結果となった理由として、要約手法知識の
ない被験者にとって要約とは、人間が直感的な重要語の組み合わせで要約文を再構成し
て人間が作る要約文であり、被験者が作る理想的な要約文と実験結果の要約文とを
比較するという、人間特有の要約評価を基準にして要約文を評価した結果である
ことが挙げられる。
要約率については、要約率50%で「ある程度の要約」が56%、要約率25%では 「ある程度の要約」は22%となり、要約率30%での実用には適さないと言える結 果となった。その原因は、人間が判別する重要語は文関係に拘束されず、 個々の繋がりに規則性が見い出しにくいという性質によるものである。
5 おわりに
結論
従来の要約手法の問題点であった、抽出文同士の関連性欠如と冗長要素の削除を解決
するため、本研究では、結合価パターンによって定型化されたキーワード同士の
意味的ネットワークを作成することで意味的関連性を強化し、そのネットワーク
を利用して文書の全ての構成要素に重要度順位付けを行なうことで、冗長要素を
あらかじめ除外して要約文を生成する手法を「レベルネットワーク要約手法」と
して提案した。
今回の実験結果から、本研究の手法は、文書構造と情報量の損失を最小限に抑えるとい
う機械要約の観点において、本研究が提案するレベルネットワーク要約が有効であることが実証できた。
それと同時に、人間の要約能力との差異も明らかになったが、本研究には研究期間
の関係上取り入れることのできなかった手法があり、その手法を今後発展させる
ことにより、計算機の要約能力と人間の要約能力との差異を縮める事が可能であ
る。
今後の課題
人手の介入が必要となる文単位ネットワークの階層構成、およ
び、独自の分類法を使用している修飾句分類手順の自動化が必要となる。
そして、人間が直感的に判断している重要語(慣用句・比喩表現・
括弧書き強調語etc)を意味的特異点として識別し、レベルネットワークに組み込む手法を考案することで、より人間の要約能力に近い要約文生成の実現が期待できる。
6 参考文献
[1]船坂、山本、増山 : 冗長度削減による関連新聞記事の要約、
情報処理学会研究報告、Vol.96、No.65、pp39-46(1996)
[2]窪田、山下、吉田 : 要約文生成のための単語抽出方法、
情報処理学会研究報告、Vol.98、No.99、pp-143-149(1998)
[3]水谷、石綿、荻野、賀来、草薙 : 文法と意味I、朝倉書店(1983)
[4]池原、宮崎、白井、横尾、中岩、小倉、大山、林 : 日本語語彙大系、
岩波書店(1997)
[5]長尾 : 自然言語処理、岩波書店(1996)