Next: 実験 Up: 実験環境 Previous: 上位下位知識目次

クラスタリング

本研究はword2vec内のツールであるクラスタリングを使用する．クラスタリングの説明を以下に示す．なお，以下の文章は赤野[2]の論文から引用したものである．

まず，word2vecは単語をベクトル変換するものである．作者のMikolovら [5]は、意味的に関連が強い単語はベクトルが近くなると主張している [10]．例えば，「Java」「Perl」「Ruby」などはプログラミング言語として似た単語としてベクトルが近くなる．このように入力された文章から似たような単語ベクトルを集めてクラス毎に分類することをクラスタリングという．

Wikipediaの「大学」に関するデータ(2014年11月)を入力として，1，000個のクラスタにクラスタリングした結果の一部(3つのクラスタ)を例として表，表，表に示す．ここで言う，Wikipediaの「大学」に関するデータは，タイトルが「大学」を含むWikipediaのページのことである．

表は芸術大学という点で同じような単語が集まっている．表は短期大学という点で同じ単語が集まっている．表は点数関係が集まっている．

表: クラスタリングの抽出例1
愛知県立芸術大学
沖縄県立芸術大学
京都市立芸術大学
女子美術大学
多摩美術大学
東京芸術大学
東京造形大学
武蔵野音楽大学
武蔵野美術大学
.....

表: クラスタリングの抽出例2
宮城県農業短期大学
京都経済短期大学
京都市立看護短期大学
京都文化短期大学
京都文教短期大学
共栄学園短期大学
九州造形短期大学
九州大谷短期大学
駒沢女子短期大学
.....

表: クラスタリングの抽出例3
スコア
テスト
最低
習熟
上回り
値
適性
点数
到達
倍率
平均
偏差
満点
.....

Next: 実験 Up: 実験環境 Previous: 上位下位知識目次

root 2017-03-04