次へ: 文末表現の利用に関する考察
上へ: 考察
戻る: Okapi-BM25利用に関する考察
目次
共起語の利用はBM25の「対応先と同じ名詞が存在しない」という問題を解決する一つの手段である利用できる名詞を増加させている.しかし,この問題点としては共起される名詞が正しいものばかりでなく,間違った名詞も存在するという点である.ブログを対象としたコメント先の解析が目的なので,それに応じた共起データベースを利用することが最も望ましいと考えられる.
今回間違った対応付けの原因としては表4.2.2のような異常に共起度の高い普遍的な共起語の存在が挙げられる.
表:
普遍的共起語
共起語 |
共起度 |
今日 |
15149 |
気 |
13973 |
中 |
30840 |
これらの共起語は多くの名詞から共起され,かつ,高い共起度を持つ.これにより間違った対応を行ってしまう場合がある.
平成23年4月13日