next up previous contents
Next: 実験 Up: 実験に用いる動詞・形容詞の類義語対 Previous: EDR電子化辞書を用いた動詞・形容詞の類義語の認識   目次


実験で用いる類義語の選定

本研究では,新聞記事に出現する語について機械学習を用いた動詞・形容詞の類義語の使い分けを行う. 新聞記事には,動詞類義語対獲得には1991年から1995年の5年分の毎日新聞を使用し,形容詞類義語対獲得には加えて2011年から2015年の10年分の毎日新聞を使用する.

以下の条件をすべて満足する語の対を取り出し,実験に用いる動詞・形容詞の類義語対とする.

条件1
その二つの語が,日本語単語辞書において,同一の概念識別子をもつこと
条件2
その二つの語が動詞では1991年から1995年の5年分の新聞で出現頻度が50回以上であること,形容詞では1991年から1995年と2011年から2015年の10年分の新聞で出現頻度が20回以上であること
条件3
形態素解析システムJUMAN[6]を用いて解析した結果,その二つの語の代表表記が異なること

条件1は,今回使用したEDR電子化辞書において,同一の概念識別子は概念辞書により同一の概念として定義されており, 同一の概念識別子をもつ語どうしは類義であるとみなせるため設定する. 条件2は新聞内で多く使われている語について調査を行うためで,機械学習に用いる学習事例の数を大きくすることに繋がる. 条件3の代表表記が異なるものを扱うのは,異表記における使い分けを 本研究で扱わないようにするためである. 異表記対は同じ代表表記を持つ. 異表記対の使い分けはすでに文献[3]で扱われており, 本研究では扱わないため条件3を設けた.

名詞・副詞の類義語の使い分けには上記の条件に加えて,二つの語が両方とも,日本語単語辞書において,付与された概念識別子が1つであることといった条件があった. しかし,動詞・形容詞の類義語対の場合は多義語であることがほとんどであり,概念識別子が1つであるといった条件を加えると,実験に使用する類義語対の数が少なくなるため,この条件を省いた. 例えば「探し回る」は概念識別子が1つのみであるが,「探し求める」は細かい意義の違いも含めると概念識別子が他に4つある.本実験では上記の理由より,これを考慮せず,実験と考察を行う.

これらの条件を満足する動詞の類義語対は22対あり,形容詞の類義語対は10対あった. これらを実験に用いる類義語対とする.

実際に獲得した動詞類義語対を表4.3に示し,形容詞類義語対を表4.4に示す.




表 4.3: 獲得した動詞類義語対
1 煎る 炒る
2 代わる 入れ替わる
3 そそぐ 言い逃れる
4 準じる 準ずる
5 似る 類する
6 奪い取る 分捕る
7 はみ出す はみ出る
8 見限る 見捨てる
9 咲き誇る 咲き乱れる
10 投げ込む 投げ入れる
11 薄らぐ 薄れる
12 見定める 突き止める
13 さらけ出す 届け出る
14 ほったらかす 怠る
15 取りやめる 取り消す
16 群がる 群れる
17 取り去る 除く
18 いら立つ 焦る
19 探し回る 探し求める
20 せしめる 勝ち得る
21 買い求める 買い入れる
22 書き込む 書き入れる




表 4.4: 獲得した形容詞類義語対
1 みっともない 見苦しい
2 ずうずうしい ずぶとい
3 けだるい だるい
4 痛ましい 涙ぐましい
5 気高い 神々しい
6 注意深い 用心深い
7 眠い 眠たい
8 易しい 手軽い
9 近しい むつまじい
10 気まずい 面はゆい


next up previous contents
Next: 実験 Up: 実験に用いる動詞・形容詞の類義語対 Previous: EDR電子化辞書を用いた動詞・形容詞の類義語の認識   目次
2018-03-09