Next: 類似度
Up: 実験環境
Previous: 実験データ
目次
本研究におけるクラスタリングの実験環境を以下に示す.
- ベクトルの次元は200次元とする
- 文脈は最大8単語とする
- ネガティブサンプリングは25とする
- 学習を20スレッド並列で行う
- クラスタ数2000個生成(先行手法は1000個生成)する
また,word2vecに使用するデータは,単語毎に空白を入れる必要がある.本研究では日本語の文章を使用しているために文章を単語毎に分割する必要がある.そこで,単語毎に分割を行うため「mecab-0.993」を使用する.「mecab」で単語毎に分割した例を図5.2,図5.3に示す.
(以下の図5.2が分かち書き前のものであり,図5.3が分かち書き後のものである.)
図 5.2:
Wikipediaの記事にmecabを使用する前の例
4#4 |
図 5.3:
Wikipediaの記事にmecabを使用した結果の例
4#4 |
akano hokuto
2018-03-06