分类:无参数无函数LDA(LTA)

来自Big Physics
Jinshanw讨论 | 贡献2020年6月15日 (一) 13:41的版本
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)


LDA(Latent Dirichlet allocation)[1][2]有几个关键点:[math]\displaystyle{ P\left(w|d\right)=\sum_{t}P\left(w|t\right)P\left(t|d\right) }[/math][math]\displaystyle{ P\left(w|t\right) }[/math]来自于整个语料库,分布函数的具体的Dirichlet函数形式。我现在希望构建一个无参数的不用具体函数形式的假设的主题发现方法。可以是自洽的迭代算法,例如从某一组假定的[math]\displaystyle{ P\left(w|t\right) }[/math]开始,求出来[math]\displaystyle{ P\left(t|d\right) }[/math],接着再次更新[math]\displaystyle{ P\left(w|t\right) }[/math]。也可以是某一个目标下的优化算法,例如这样的目标,对于每一个文档[math]\displaystyle{ d }[/math]都满足[math]\displaystyle{ P_{em}\left(w|d\right)-\sum_{t}P\left(w|t\right)P\left(t|d\right) }[/math]取得最小值。

这个迭代的思路和pLSA很像。需要仔细去看看pLSA[3]

但是,一方面更新算法我还没找到,一方面看起来仅仅有这个目标还不够。需要从LDA的细节中去吸取更多营养。满足这个目标的平庸解有[math]\displaystyle{ P\left(w|t\right)=\delta_{wt} }[/math](每一个词都是一个主题),于是[math]\displaystyle{ P\left(w|d\right)=P\left(t|d\right) }[/math];或者[math]\displaystyle{ P\left(t|d\right)=\delta_{td} }[/math](每一个文档都是一个主题),于是[math]\displaystyle{ P\left(w|d\right)=P\left(w|t\right) }[/math]。因此,仅仅依靠这个目标是不行的。当然,你可以把外参数——主题的数目——当做一个约束。没准看起来,仅仅依靠这个目标然后加上这个约束也能够得到非平庸的主题分类。其实,还有其他的约束。例如,保相似性条件[math]\displaystyle{ \sum_{w}P\left(d_{1}|w\right)P\left(w|d_{2}\right)=\sum_{t}P\left(d_{1}|t\right)P\left(t|d_{2}\right) }[/math],也就是说如果两个文档从词频的角度来说是相似的,那么,两个文章从主题的角度来说也应该是相似的。不过,这个约束看起来应该是这个目标的推论:相似的[math]\displaystyle{ P\left(w|d\right) }[/math],由于[math]\displaystyle{ P\left(w|t\right) }[/math]跟文档无关,整个语料库产生一套[math]\displaystyle{ P\left(w|t\right) }[/math],于是,自然计算得到的[math]\displaystyle{ P\left(t|d\right) }[/math]也是类似的。因此,这个约束不是特别合理(没必要了)。这样看来,这个额外的约束或者目标,除了主题的个数,现在我们就只有[math]\displaystyle{ P\left(w|t\right) }[/math]是公共知识这一点了。但是,后者还没有找到太好的数学表达式。如果我们能够把问题转化成一个带约束的优化问题,就可以通过优化或者机器学习来解决了,而不用依靠具体的函数形式。不过,就算具体的函数形式下的参数的优化,仍然有可能可以通过跟LDA不一样的方式来寻找最优值。这个也应该去看看是否有人做。

另外,已知[math]\displaystyle{ P\left(w|t\right) }[/math]来求解[math]\displaystyle{ P\left(t|d\right) }[/math]的问题,也需要去看看有没有人研究过[4]。这个问题实际上可以看做一个非方的线性方程求解的问题。

解决了这个问题,只要把w的表象换成考虑了词语之间的意义联系的分布式矢量,而不是01矢量,就可以把word2vec和LDA结合了。当然,粗暴的在连续分布函数空间上依赖于函数形式的参数优化方式,也是有可能可以把word2vec和LDA结合起来的。

参考文献

  1. Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84.
  2. Griffiths, Thomas L.; Steyvers, Mark (April 6, 2004). "Finding scientific topics". Proceedings of the National Academy of Sciences. 101 (Suppl. 1): 5228–5235. doi:10.1073/pnas.0307752101.
  3. Thomas Hofmann, Unsupervised Learning by Probabilistic Latent Semantic Analysis, Machine Learning(2001) 42(1-2), 177-196.
  4. Justin Wood, Patrick Tan, Wei Wang, Corey Arnold, Source-LDA: Enhancing probabilistic topic models using prior knowledge sources

本分类目前不含有任何页面或媒体文件。