Next: 類似度 Up: 今後の課題 Previous: 重要項目の数目次

名詞連続

word2vecは英単語を基準に作られている．英単語では単語毎に空白が入っていてクラスタリングをしやすい．日本語では，word2vecを利用するには，単語毎に空白を入れる処理を行わなければならない．本研究ではmecabを使って単語毎に空白を入れた．ただ，mecabの処理結果において未知語となっている名詞連続は分割されていることが多い．例えば，「熊本城」という単語は「熊」，「本城」と分割されることがある．この場合だと「熊本城」と正しく検出されることが望ましい．このように未知語の分割を正しく分割することで，クラスタリング結果の精度の向上が考えられる．

akano hokuto 2018-03-06