分类:无参数无函数LDA(LTA)

来自Big Physics
Jinshanw讨论 | 贡献2017年6月30日 (五) 17:32的版本


LDA(Latent Dirichlet allocation)[1][2]有几个关键点:[math]\displaystyle{ P\left(w|d\right)=\sum_{t}P\left(w|t\right)P\left(t|d\right) }[/math][math]\displaystyle{ P\left(w|t\right) }[/math]来自于整个语料库,分布函数的具体的Dirichlet函数形式。我现在希望构建一个无参数的不用具体函数形式的假设的主题发现方法。可以是自洽的迭代算法,例如从某一组假定的[math]\displaystyle{ P\left(w|t\right) }[/math]开始,求出来[math]\displaystyle{ P\left(t|d\right) }[/math],接着再次更新[math]\displaystyle{ P\left(w|t\right) }[/math]。也可以是某一个目标下的优化算法,例如这样的目标,对于每一个文档[math]\displaystyle{ d }[/math]都满足[math]\displaystyle{ P_{em}\left(w|d\right)-\sum_{t}P\left(w|t\right)P\left(t|d\right) }[/math]取得最小值。

但是,一方面更新算法我还没找到,一方面看起来仅仅有这个目标还不够。需要从LDA的细节中去吸取更多营养。满足这个目标的平庸解有[math]\displaystyle{ P\left(w|t\right)=\delta_{wt} }[/math](每一个词都是一个主题),于是[math]\displaystyle{ P\left(w|d\right)=P\left(t|d\right) }[/math];或者[math]\displaystyle{ P\left(t|d\right)=\delta_{td} }[/math](每一个文档都是一个主题),于是[math]\displaystyle{ P\left(w|d\right)=P\left(w|t\right) }[/math]。因此,仅仅依靠这个目标是不行的。当然,你可以把外参数——主题的数目——当做一个约束。没准看起来,仅仅依靠这个目标然后加上这个约束也能够得到非平庸的主题分类。其实,还有其他的约束。例如,保相似性条件[math]\displaystyle{ \sum_{w}P\left(d_{1}|w\right)P\left(w|d_{2}\right)=\sum_{t}P\left(d_{1}|t\right)P\left(t|d_{2}\right) }[/math],也就是说如果两个文档从词频的角度来说是相似的,那么,两个文章从主题的角度来说也应该是相似的。不过,这个约束看起来应该是这个目标的推论:相似的[math]\displaystyle{ P\left(w|d\right) }[/math],由于[math]\displaystyle{ P\left(w|t\right) }[/math]跟文档无关,整个语料库产生一套[math]\displaystyle{ P\left(w|t\right) }[/math],于是,自然计算得到的[math]\displaystyle{ P\left(t|d\right) }[/math]也是类似的。因此,这个约束不是特别合理(没必要了)。

另外,已知[math]\displaystyle{ P\left(w|t\right) }[/math]来求解[math]\displaystyle{ P\left(t|d\right) }[/math]的问题,也需要去看看有没有人研究过[3]。这个问题实际上可以看做一个非方的线性方程求解的问题。

参考文献

  1. Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84.
  2. Griffiths, Thomas L.; Steyvers, Mark (April 6, 2004). "Finding scientific topics". Proceedings of the National Academy of Sciences. 101 (Suppl. 1): 5228–5235. doi:10.1073/pnas.0307752101.
  3. Justin Wood, Patrick Tan, Wei Wang, Corey Arnold, Source-LDA: Enhancing probabilistic topic models using prior knowledge sources

本分类目前不含有任何页面或媒体文件。