分类:词汇的密度矩阵表示

来自Big Physics
Jinshanw讨论 | 贡献2019年9月16日 (一) 11:08的版本


研究背景

前人的研究[1][2]已经发现,在自然语言处理中,用分布式矢量(就是每个分量上都可能有个值,而不是one-hot表示只有一个地方是1其他分量都是0)来表示词汇(以及句子、段落、篇章)可以很大程度上解决词汇之间的含以上的依赖关系,还可以提高计算效率。甚至提出了各种考虑了语言的长程关联的矢量表示算法。

著名的一个展示词汇之间含以上的依赖关系例子,就是:国王-男人=女王(皇后)-女人,并且在矢量表示上,这个等式也成立。也就说,大概来说,国王=男人+王位,女王=女人+王位。这个叠加确实看起来像是矢量叠加。但是,其实有另一种概率叠加,或者说,集合相加,例如,人=男人+女人,表示人这个集合是男人和女人这两个集合加起来(暂时不考虑其他性别的情况),或者说,当我说“走过来一个人”的时候,我指的可能是“走过来一个男人”,也可能是“走过来一个女人”。这叫做概率叠加。

于是,问题来了:是不是能够有一种表示,可以统一地描述这两种不同的含义上的依赖关系?

量子力学告诉我们,前者叫做相干叠加,采用矢量相加的数学:[math]\displaystyle{ \left| \mu \right\rangle=\alpha\left| 1\right\rangle + \beta\left| 2\right\rangle, \rho=\left| \mu\right\rangle\left\rangle \mu\right| = \alpha\alpha^{*}\left| 1\right\rangle\left\langle 1\right|+\beta\alpha^{*}\left| 2\right\rangle\left\langle 1\right|+\alpha\beta^{*}\left| 1\right\rangle\left\langle 2\right|+\beta\beta^{*}\left| 2\right\rangle\left\langle 2\right| }[/math];后者叫做非相干叠加,采用概率叠加的形式:[math]\displaystyle{ \rho=p_{1}\left| 1\right\rangle\left\langle 1\right|+p_{2}\left| 2\right\rangle\left\langle 2\right| }[/math]。两者相差中间的非对角元素。

核心思想

既然词汇在含以上具有这样两种依赖关系,而量子力学的数学也就是密度矩阵可以统一表示这两种关系,那么,我们为什么不试试用密度矩阵来表示词汇呢?也就是说,每一个词汇不再当做矢量来训练,而当做密度矩阵来训练,[math]\displaystyle{ w \rightarrow \rho_{w} }[/math],然后相似性的计算变成[math]\displaystyle{ \left(\mu,\nu\right)=tr\left(\rho_{\mu}^{\dag}\rho_{\nu}\right) }[/math]。有了这个表示和相似性之后,只要用原来训练矢量表示的方法,就可以得到密度矩阵表示了。

问题

  1. 是不是其实密度矩阵表示可以被看做另一种矢量表示?

量子力学本身的研究已经告诉我们,不能。另外,我们也可以看到,关键的不同就在相似性计算上:把[math]\displaystyle{ \rho_{w} }[/math]看做一个矢量,例如把所有的元素排成一列,当做列矢量,我们就发现,相似性的计算不是通常的矢量内积。

  1. 如何训练词义的叠加关系和概率相加关系?

第一阶段,我们完全可以参考word2vec的方法,用附近的词的方式来训练词的密度矩阵表示,只需要把矢量替换成矩阵(同时保证归一化和复对称),用矩阵相似性计算[math]\displaystyle{ \left(\mu,\nu\right)=tr\left(\rho_{\mu}^{\dag}\rho_{\nu}\right) }[/math]代替适量相似性计算[math]\displaystyle{ \left(\mu,\nu\right)= \left\langle\mu\right|\left.\nu\right\rangle }[/math]

下一步研究

  1. 文献调研,看一看有没有其他人提出了这个词汇(句子、段落、篇章)的密度矩阵表示。前人的工作[3][4]有提出来还是用矢量来表示词汇,但是用密度矩阵来表示句子的文章。其卖点是,可以直接用词汇矢量集合计算出来句子的密度矩阵。所以本质上,仍然不一样。不过,确实思想上相似的地方。
  2. 在一个语料库上做一下,检验一下词义的叠加关系和概率相加关系,在做一下阅读理解问答题等后续任务,比较一下效果。

参考文献

  1. T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781.
  2. T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119.
  3. Qiuchi Li, Sagar Uprety, Benyou Wang, Dawei Song, Quantum-inspired Complex Word Embedding, arXiv:1805.11351
  4. Peng Zhang, Jiabin Niu, Zhan Su, Benyou Wang, Liqun Ma, Dawei Song, End-to-End Quantum-like Language Models with Application to Question Answering. AAAI 2018. https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/16720/16126

本分类目前不含有任何页面或媒体文件。