重文・離散共起抽出(2組)の含有率の推移(図5)からの考察
表現番号が大きくなるにつれて含有率が低下する傾向にあることが分かる。減
少の傾向も一定ではなく、表現番号の最後のあたりで急に落ち込んでいるが、
これは相互情報量の効果が現われているからである。相互情報量を利用するこ
とにより人手の労力を軽減することができた。また、相互情報量の値を足切り
値をして使うことで、出力される表現を抑制することも可能である。
単文のサンプルテストでは、含有率がどの場合も100%となっている。単文で は表現とその表現の頻度の両方が重要となる。
名詞句のサンプルテストでは、抜き出す表現によって含有率にばらつきがある。
その原因は、名詞の種類については一切置き換えを行なっていないので、数詞
が断片的な文字列として出力されたからである。数詞を置き換える案もあるが、
それでは名詞句特有の「2月3日の節分」といった数詞を含む表現が失われてし
まうため、本研究では置き換えないことにした。
名詞句・連鎖型共起抽出のサンプルテスト結果(図8)からの考察
サンプルEの頻度は低い値だが、含有率は99%と高い値になっている。この結
果からも分かるように、頻度が低いからといって定型的な言い回しが含まれて
いないわけではなく、むしろ頻度が低い値の表現には定型的な言い回しが多く
含まれている可能性もある。また、逆に頻度が高いからといって、含有率が高
いわけでは無いこともこの表から読み取れる結果となった。
名詞句・離散型共起抽出(2組)のサンプルテスト結果(図9)からの考察
相互情報量の値が大きいからといって、定型的な言い回しであるとは限らない ことが分かる。サンプルAの相互情報量の値は他の表現に比べて大きい値となっ ているが、定型的な言い回しの含有率は78%と、他のサンプルに比べて一番低 い値となっている。これは、2回しか現われず、表現が常に決まった表現との み共起している表現がサンプルAに多く含まれているからである。2回しか現わ れない表現が即、定型的な言い回しではないとは限らないが、本研究では相互 情報量の値のみしか用いておらず、頻度の情報が欠落しているために、このよ うな結果になってしまったのではないかと考えられる。この結果をふまえて、 相互情報量を利用する場合には、頻度情報を利用することが考えられる。しか し、頻度を利用する場合には、利用するバランスが重要になってくる。語と語 の結び付きの強さ、つまり相互情報量と頻度がちょうど釣り合うように評価式 を定めなければならない。相互情報量と頻度情報を用いた評価式として 12の式が考えれてるが、この評価式では頻度の割合が高くなり過ぎ る。そのため、頻度の高い表現がやはり上位にくるようになり、相互情報量を 用いる利点が薄くなってしまう。このように、相互情報量と頻度情報を共に用 いる場合には、そのバランスが鍵となってくる。