分类:词汇的密度矩阵表示

来自Big Physics
Jinshanw讨论 | 贡献2019年9月13日 (五) 10:51的版本


研究背景

前人的研究[1][2]已经发现,在自然语言处理中,用分布式矢量(就是每个分量上都可能有个值,而不是one-hot表示只有一个地方是1其他分量都是0)来表示词汇(以及句子、段落、篇章)可以很大程度上解决词汇之间的含以上的依赖关系,还可以提高计算效率。甚至提出了各种考虑了语言的长程关联的矢量表示算法。

著名的一个展示词汇之间含以上的依赖关系例子,就是:国王-男人=女王(皇后)-女人,并且在矢量表示上,这个等式也成立。也就说,大概来说,国王=男人+王位,女王=女人+王位。这个叠加确实看起来像是矢量叠加。但是,其实有另一种概率叠加,或者说,集合相加,例如,人=男人+女人,表示人这个集合是男人和女人这两个集合加起来(暂时不考虑其他性别的情况),或者说,当我说“走过来一个人”的时候,我指的可能是“走过来一个男人”,也可能是“走过来一个女人”。这叫做概率叠加。

于是,问题来了:是不是能够有一种表示,可以统一地描述这两种不同的含义上的依赖关系?

量子力学告诉我们,前者叫做相干叠加,采用矢量相加的数学:[math]\displaystyle{ \left| \mu \right\rangle=\alpha\left| 1\right\rangle + \beta\left| 2\right\rangle, \rho=\left| \mu\right\rangle\left\rangle \mu\right| = \alpha\alpha^{*}\left| 1\right\rangle\left\langle 1\right|+\beta\alpha^{*}\left| 2\right\rangle\left\langle 1\right|+\alpha\beta^{*}\left| 1\right\rangle\left\langle 2\right|+\beta\beta^{*}\left| 2\right\rangle\left\langle 2\right| }[/math];后者叫做非相干叠加,采用概率叠加的形式:[math]\displaystyle{ \rho=p_{1}\left| 1\right\rangle\left\langle 1\right|+p_{2}\left| 2\right\rangle\left\langle 2\right| }[/math]

核心思想

参考文献

  1. T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781.
  2. T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119.

引用错误:在<references>中以“Li:DensityMatrix”名字定义的<ref>标签没有在先前的文字中使用。

本分类目前不含有任何页面或媒体文件。