(1.1) |
トピックとは話題を支える単語の集合で,トピックごとに何らかの共通の話題に対する単語が集まっている.
このモデルを用いると任意の文書をトピックによるベクトルで表すことができる.そのためのトピックは,大量の文書から学習しておくこととする.本研究では,[11]のツールを利用する.
以下に本研究を進める際に参考にしたLDAを用いた研究を述べる.落合らはLDAの確率を割り当てる対象を述語項構造を基本とした単語の組にすることで,商品に対するレビュー文書の動詞による特徴を抽出した[4].芹澤らはLDAを用いて,トピックを抽出し,文書内の語の特徴量をterm-scoreで計算した.各トピック間の類似度をコサイン類似度で測った[5].立川らはLDAでトピックを抽出する際に,与えられている文書から制約となる単語群を自動抽出し,事前知識として与えることで制約を踏まえたトピック抽出を行った[6].
Yahoo!LDA
本研究では,LDAを用いたベクトル化においてYahoo!LDA[11]というツールを用いる.Yahoo!LDAの主な出力としては表1.1のファイルがある.
出力ファイル | 概要 |
lda.docToTop.txt | トピック番号とそれに帰属する量 |
lda.worToTop.txt | IDごとの単語とそれが属するトピック番号 |
lda.topToWor.txt | トピックごとに属する単語とそれの量 |
lda.docToTop.txtはベクトル化に用いる.lda.worToTop.txtは式(1.1)で各単語に割り当てられたトピックをによって調整した値を出力している.