首页 技术 正文
技术 2022年11月10日
0 收藏 896 点赞 3,802 浏览 738 个字

看了《LDA数学八卦》和July的博客,里面涉及到好多公式推导。。。感觉好复杂,于是记录一些重点简洁的东西,忽略大批量铺垫,直接回答LDA和PLSA是区别:

在pLSA模型中,我们按照如下的步骤得到“文档-词项”的生成模型(频率派):

  1. 按照概率LDA和PLSA选择一篇文档LDA和PLSA
  2. 选定文档LDA和PLSA后,确定文章的主题分布
  3. 从主题分布中按照概率LDA和PLSA选择一个隐含的主题类别LDA和PLSA
  4. 选定LDA和PLSA后,确定主题下的词分布
  5. 从词分布中按照概率LDA和PLSA选择一个词LDA和PLSA 

下面,咱们对比下本文开头所述的LDA模型中一篇文档生成的方式是怎样的(贝叶斯派):

  1. 按照先验概率LDA和PLSA选择一篇文档LDA和PLSA
  2. 从狄利克雷分布(即Dirichlet分布)LDA和PLSA中取样生成文档 LDA和PLSA的主题分布LDA和PLSA,换言之,主题分布LDA和PLSA由超参数为LDA和PLSA的Dirichlet分布生成
  3. 从主题的多项式分布LDA和PLSA中取样生成文档LDA和PLSA第 j 个词的主题LDA和PLSALDA和PLSALDA和PLSA
  4. 从狄利克雷分布(即Dirichlet分布)LDA和PLSALDA和PLSALDA和PLSA中取样生成主题LDA和PLSA对应的词语分布LDA和PLSALDA和PLSALDA和PLSA,换言之,词语分布LDA和PLSA由参数为LDA和PLSA的Dirichlet分布生成
  5. 从词语的多项式分布LDA和PLSALDA和PLSALDA和PLSA中采样最终生成词语LDA和PLSALDA和PLSALDA和PLSA 

    从上面两个过程可以看出,LDA在PLSA的基础上,为主题分布和词分布分别加了两个Dirichlet先验。

  这是July在介绍LDA中讲到的,这两个Dirichlet先验主要是加在确定某一文档LDA和PLSA时,PLSA是直接确定其主题分布,而LDA对主题的分布,也是以一定概率生成的;其次PLSA在依据主题确定词分布时,分布概率也是确定的,而LDA的词分布是由参数为LDA和PLSA的Dirichlet分布生成。即PLSA中,文档d产生主题z的概率,主题z产生单词w的概率都是两个固定的值。而LDA中,主题分布(各个主题在文档中出现的概率分布)和词分布(各个词语在某个主题下出现的概率分布)不再是唯一确定的(而是随机变量),而是有很多种可能。但总体还是服从狄利克雷的先验分布的。

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,087
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,562
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,412
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,185
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,821
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,905