次へ: 問題設定と提案手法 上へ: 先行研究 戻る: 同義語間の選択についての調査目次

単語類似度ネットワークを通じた自動同義語獲得

王らは，コーパスから同義語を獲得する方法について新たな手法を提案している[3]．コーパスから同義語を獲得することは，テキスト処理の重要なリソースの1つであるシソーラスの品質を向上させることに繋がる．

王らが提案したコーパスから同義語を獲得する手法は単語類似度ネットワークを使用した方法である．同義語を獲得する方法には様々な方法が提案されており，それらは，同義語名詞なら似ている文脈情報をもつという分布仮説に基づいている．この仮説は基本的に2段階の処理で実行される．第1段階の処理では，コーパスから抽出された重要度の高い単語の文脈特徴における統計情報を抽出する．第2段階の処理ではcosine類似度などの類似性量度を選び，それをクエリ単語と同義語候補の単語対に適用して類似度を計算する．類似度の降順で各クエリ単語の同義語候補リストを作る．最後に同義語リストからトップ候補を選んで，クエリ単語の同義語と認定する．これまでが基本的な方法である．

王らの手法では2段階の処理の後にさらにもう1つ処理を加える． 2段階の類似度によって形成されるネットワーク，すなわち単語をノード，類似度の順位が閾値以内の単語間にアークを持つとしてネットワークの構造を調べてみると，スケールフリーの性質を持っていることがわかった．これにより，クエリ単語の同義語である可能性が比較的高い単語だけを対象にする自動同義語候補選択のためのランク閾値を決める手法RTS(Rank Threshold for synonym candidate Selection method)と単語類似度ネットワークの構造を活用する同義語候補の相互リランキング法MRM(Mutual Re-ranking Method)を提案した．MRMでリランキングする際，スケールフリーネットワークにある類似度の降順でランクされた同義語候補はハブ単語と非ハブ単語をわけて扱う．同義語関係は対称だが，王らのMRMは対称ではない．以前の研究では単語類似度ネットワークの構造的な特性を使用していない．

王らの研究の成果として，提案したRTSで選択された単語ノードの単語類似度ネットワークがスケールフリーの特性をもっていることを示したということがある．更に，同義語候補リストを改良するためMRMを提案した．詳細な実験により，RTSで自動的に選択したランクの閾値が有効であり，MRMを加えてさらに有効性を示した．

この先行研究はコーパスから同義語を獲得する研究であり，同義語に関する研究であるということは本研究と同一であるが，それ以外は大きく異なっている．

平成25年2月19日