主题模型

详见《统计学习方法》第二版,15-20章

image

​ 主题模型在《统计学习方法》第二版,15-20章有较为详细的介绍。

pLSA

image

​ 包含“隐含变量”或者“缺失数据”的概率模型参数估计问题可以采用EM算法。

​ EM算法的步骤本质上是一种交替最优化(二部坐标下降法):

  1. E步骤:求隐含变量Given当前估计的参数条件下的后验概率。

  2. M步骤:最大化Complete data对数似然函数的期望,此时我们使用E步骤里计算的隐含变量的后验概率,得到新的参数值。

EM算法求解PLSA

  • 已知量:w,d
  • 隐变量:z
  • 参数:P(w|z),P(z|d)
  • E:直接写出
  • M:拉格朗日乘子法求解

LDA

image

image

EM算法求解LDA

  • 已知量:w

  • 隐变量:z,θ,φ

  • 参数:a,β

  • E:直接写不出,需要用变分法近似,或者吉布斯采样

  • M:坐标下降法求解,可以考虑牛顿法

    详见李航《统计学习方法》第二版,15-20章


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!