next up previous contents
Next: 類似度 Up: 実験環境 Previous: mecab   目次

クラスタリング

本研究はword2vec内のツールであるクラスタリングを使用する.

まず,word2vecは単語をベクトル変換するものである.作者のMikolovら [2]は、意味的に関連が強い単語はベクトルが近くなると主張している [6].例えば,「Java」「Perl」「Ruby」などはプログラミング言語として似た単語としてベクトルが近くなる.このように入力された文章から似たような単語ベクトルを集めてクラス毎に分類することをクラスタリングという. 

Wikipediaの「大学」に関するデータ(2014年11月)を入力として,1,000個のクラスタにクラスタリングした結果の一部(3つのクラスタ)を例として表4.1,表4.2,表4.3に示す.ここで言う,Wikipediaの「大学」に関するデータは,タイトルが「大学」を含むWikipediaのページのことである.

4.1は芸術大学という点でで同じような単語が集まっている.表4.2は短期大学という点で同じ単語が集まっている.表4.3は点数関係が集まっている.

表 4.1: クラスタリングの抽出例1
愛知県立芸術大学
沖縄県立芸術大学
京都市立芸術大学
女子美術大学
多摩美術大学
東京芸術大学
東京造形大学
武蔵野音楽大学
武蔵野美術大学
.....


表 4.2: クラスタリングの抽出例2
宮城県農業短期大学
京都経済短期大学
京都市立看護短期大学
京都文化短期大学
京都文教短期大学
共栄学園短期大学
九州造形短期大学
九州大谷短期大学
駒沢女子短期大学
.....


表 4.3: クラスタリングの抽出例3
スコア
テスト
最低
習熟
上回り
適性
点数
到達
倍率
平均
偏差
満点
.....


next up previous contents
Next: 類似度 Up: 実験環境 Previous: mecab   目次
akano hokuto 2018-03-06