next up previous contents
次へ: クラスタリング 上へ: 要素技術について 戻る: 要素技術について   目次


Latent Dirichlet Allocation

LDAとは,文書生成モデルである.すなわち,複数のトピック${\bf z}$からある確率で文書${\bf w}$が生成されるとするモデルである.${\bf z}$${\bf w}$の生成確率は次式で求められる.


\begin{displaymath}
p(\theta,{\bf z}, {\bf w}\vert\alpha, \beta)=p(\theta\vert\alpha)\prod^N_{n=1}p(z_n\vert\theta)p(w_n\vert z_n,\beta),
\end{displaymath} (1.1)

zはトピックベクトルを表す.また,$\theta$はトピックの混合比,$\alpha$および$\beta$はパラメータである.なお,$w_n$$n$番目の単語である.

トピックとは話題を支える単語の集合で,トピックごとに何らかの共通の話題に対する単語が集まっている.

このモデルを用いると任意の文書をトピックによるベクトルで表すことができる.そのためのトピックは,大量の文書から学習しておくこととする.本研究では,[11]のツールを利用する.

以下に本研究を進める際に参考にしたLDAを用いた研究を述べる.落合らはLDAの確率を割り当てる対象を述語項構造を基本とした単語の組にすることで,商品に対するレビュー文書の動詞による特徴を抽出した[4].芹澤らはLDAを用いて,トピックを抽出し,文書内の語の特徴量をterm-scoreで計算した.各トピック間の類似度をコサイン類似度で測った[5].立川らはLDAでトピックを抽出する際に,与えられている文書から制約となる単語群を自動抽出し,事前知識として与えることで制約を踏まえたトピック抽出を行った[6].

Yahoo!LDA

本研究では,LDAを用いたベクトル化においてYahoo!LDA[11]というツールを用いる.Yahoo!LDAの主な出力としては表1.1のファイルがある.

表: Yahoo!LDAの出力
出力ファイル 概要
lda.docToTop.txt トピック番号とそれに帰属する量
lda.worToTop.txt IDごとの単語とそれが属するトピック番号
lda.topToWor.txt トピックごとに属する単語とそれの量

lda.docToTop.txtはベクトル化に用いる.lda.worToTop.txtは式(1.1)で各単語に割り当てられたトピックを$\theta$によって調整した値を出力している.


平成25年3月17日