なお条件2のJUMANで@マークがつかないものとは,表記は違うが代表表記が同じものである. 逆に@マークがつくものは,代表表記が別の語であることを示している. 例えば,「けいじ」という語をJUMANで解析すると代表表記が「啓示」のほかに, @マークがつき代表表記に「掲示」「刑事」「計時」が解析結果として出力される. 「啓示」「掲示」「刑事」「計時」はそれぞれ別の語である. JUMANの解析では,読みは同じで代表表記が別の語がある場合は,先頭に@マークをつけて出力する. 実験方法は各単語ごとに機械学習を適用し,10分割のクロスバリデーションを行う. なお,機械学習は表記のゆれがある単語の各表記の出現頻度数上位2つについて判定を行った. 機械学習の再現率の高さごとに高・中・低を設定する.2つの表記のうち,低いほうの再現率で分類を行い, 再現率が8割以上のものを高,8割未満5割以上を中,5割未満を低とし, 再現率高のものを適切な表記を選択できたものとする.
実験の結果,実験対象とした939語中81語が再現率高となった. また,再現率高となったものの例としては「手引」と「手引き」や,「うかる」と「受かる」など, 中のものには「讃歌」と「賛歌」や,「冬物」と「冬もの」などがあり, 低には「朝顔」と「あさがお」や,「倦怠」と「けん怠」などがあった.
この先行研究は,機械学習を適用した対象は違うが,手法などが本研究と類似している部分がある.