next up previous contents
次へ: 同義語間の選択についての調査 上へ: 先行研究 戻る: 先行研究   目次


機械学習を用いた表記選択の難易度推定

小島らは,表記にゆれがある単語,例えば「是非」と「ぜひ」などについて機械学習を用いて表記選択の難易度推定を行った[2].機械学習によって高い正解率で表記選択を行えたものは人間による表記選択が容易で,機械学習によって充分な正解率を得られなかったものは人間による表記選択が困難であると考えている. この研究では,実験で用いるデータを2005年から2007年の毎日新聞の文章としている.JUMANで形態素解析した結果得られる代表表記を用いて,表記のゆれが検出された単語(15185語)を対象とし,更に条件を付与して得られた単語(1877語)の半分(939語)を実験対象としている.付与する条件は以下のものとする.
条件1
対象の単語のすべての表記の合計出現頻度数が100以上であるもの
条件2
対象の単語の曖昧性を避けるため,JUMANの解析結果で@マークが一度もつかないもの
条件3
対象の単語の各表記の出現頻度数上位2つが,どちらも10以上であるもの
なお条件2のJUMANで@マークがつかないものとは,表記は違うが代表表記が同じものである.逆に@マークがつくものは,代表表記が別の語であることを示している.例えば,「けいじ」という語をJUMANで解析すると代表表記が「啓示」のほかに,@マークがつき代表表記に「掲示」「刑事」「計時」が解析結果として出力される.「啓示」「掲示」「刑事」「計時」はそれぞれ別の語である.JUMANの解析では,読みは同じで代表表記が別の語がある場合は,先頭に@マークをつけて出力する. 実験方法は各単語ごとに機械学習を適用し,10分割のクロスバリデーションを行う.なお,機械学習は表記のゆれがある単語の各表記の出現頻度数上位2つについて判定を行った. 機械学習の再現率の高さごとに高・中・低を設定する.2つの表記のうち,低いほうの再現率で分類を行い,再現率が8割以上のものを高,8割未満5割以上を中,5割未満を低とし,再現率高のものを適切な表記を選択できたものとする.

実験の結果,実験対象とした939語中81語が再現率高となった. また,再現率高となったものの例としては「手引」と「手引き」や,「うかる」と「受かる」など,中のものには「讃歌」と「賛歌」や,「冬物」と「冬もの」などがあり,低には「朝顔」と「あさがお」や,「倦怠」と「けん怠」などがあった.

この先行研究は,機械学習を適用した対象は違うが,手法などが本研究と類似している部分がある.



平成25年2月19日