主题模型
详见《统计学习方法》第二版,15-20章
主题模型在《统计学习方法》第二版,15-20章有较为详细的介绍。
pLSA
包含“隐含变量”或者“缺失数据”的概率模型参数估计问题可以采用EM算法。
EM算法的步骤本质上是一种交替最优化(二部坐标下降法):
E步骤:求隐含变量Given当前估计的参数条件下的后验概率。
M步骤:最大化Complete data对数似然函数的期望,此时我们使用E步骤里计算的隐含变量的后验概率,得到新的参数值。
EM算法求解PLSA
- 已知量:w,d
- 隐变量:z
- 参数:P(w|z),P(z|d)
- E:直接写出
- M:拉格朗日乘子法求解
LDA
EM算法求解LDA
已知量:w
隐变量:z,θ,φ
参数:a,β
E:直接写不出,需要用变分法近似,或者吉布斯采样
M:坐标下降法求解,可以考虑牛顿法
详见李航《统计学习方法》第二版,15-20章
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!