next up previous contents
次へ: 実験 上へ: 実験に用いる同義語対 戻る: EDR電子化辞書を用いた同義語の認識   目次


実験で用いる同義語対の選定

本研究では,新聞記事に出現する語について機械学習を用いた同義語の使い分けを行う. 新聞記事には,1991年の毎日新聞を使用する. 以下の条件をすべて満足する語の対を取り出し,実験に用いる同義語対とする.

条件1
その二つの語が,日本語単語辞書において,同一の概念識別子をもつこと
条件2
その二つの語が両方とも,日本語単語辞書において,付与された概念識別子が1つであること
条件3
その二つの語が両方とも,1年分の新聞で出現頻度が50回以上であること
条件4
形態素解析システムJUMAN[8]を用いて解析した結果,その二つの語の代表表記が異なること

条件1は,今回使用したEDR電子化辞書において,同一の概念識別子は概念辞書により同一の概念として定義されており, 同一の概念識別子をもつ語どうしは同義であるとみなせるため設定する. 条件2は,多義語の場合は言語現象が複雑になると考え,扱わないようにするために設定する. 例えば「ランチ」と「昼食」は同一の識別子3bec74をもつが, EDR辞書によると「ランチ」は複数の識別子をもち,「昼食」とは違った意味(識別子)をもつ場合がある. この違った意味で文章に記述されていた場合,「昼食」と同義であるとは言えないため, 多義性のある語は省く必要がある. 条件3は新聞内で多く使われている語について調査を行うためで, 機械学習に用いる学習事例の数を大きくすることに繋がる. 条件4の代表表記が異なるものを扱うのは,異表記における使い分けを 本研究で扱わないようにするためである.異表記対は同じ代表表記を持つ. 異表記対の使い分けはすでに文献[2]で扱われており, 本研究では扱わないため条件4を設けた.

これらの条件を満足する同義語対は90対あり,その中からランダムに取り出した45対を 実験に用いる同義語対とする.



平成25年2月19日