“分类:词汇的密度矩阵表示”的版本间的差异

来自Big Physics
跳转至: 导航搜索
下一步研究
下一步研究
 
第24行: 第24行:
  
 
=下一步研究=
 
=下一步研究=
# 文献调研,看一看有没有其他人提出了这个词汇(句子、段落、篇章)的密度矩阵表示。前人的工作<ref name="Li:DensityMatrix"/><ref name="Zhang:DensityMatrix"/>有提出来还是用矢量来表示词汇,但是用密度矩阵来表示句子和文章。例如,<ref name="Li:DensityMatrix"/>中每一个词矢量为<math>\left|\right w\rangle</math>而句子是<math>\rho = \left(\sum_{w\in S}\psi_{w}\left|w\right \rangle\right)\left(\sum_{w\in S}\psi_{w}\left\langle w\right |\right)</math>或者<math>\rho = \sum_{w\in S}p_{w}\left|w\right \rangle\left\langle w\right |</math>。前者是矢量叠加,后者是概率叠加。其卖点是,可以直接用词汇矢量集合计算出来句子的密度矩阵。在我们这里,词汇和句子文章都不用认为决定是矢量叠加还是概率叠加,反正密度矩阵本来就同时包含两种叠加。对于具体的词和句,到底属于哪一种,都需要算出来。所以本质上,仍然不一样。不过,确实思想上相似的地方。
+
# 文献调研,看一看有没有其他人提出了这个词汇(句子、段落、篇章)的密度矩阵表示。前人的工作<ref name="Li:DensityMatrix"/><ref name="Zhang:DensityMatrix"/>有提出来还是用矢量来表示词汇,但是用密度矩阵来表示句子和文章。例如,<ref name="Li:DensityMatrix"/>中每一个词矢量为<math>\left|\right w\rangle</math>而句子是<math>\rho = \left(\sum_{w\in S}\psi_{w}\left|w\right \rangle\right)\left(\sum_{w\in S}\psi_{w}\left\langle w\right |\right)</math>或者<math>\rho = \sum_{w\in S}p_{w}\left|w\right \rangle\left\langle w\right |</math>。前者是矢量叠加,后者是概率叠加。其卖点是,可以直接用词汇矢量集合计算出来句子的密度矩阵。在我们这里,词汇和句子文章都不用人为决定是矢量叠加还是概率叠加,反正密度矩阵本来就同时包含两种叠加。对于具体的词和句,到底属于哪一种,都需要算出来。所以本质上,仍然不一样。不过,确实思想上相似的地方。
 
# 推导word2vec相应的版本word2mat的更新公式,检查是否保持归一化和对称性
 
# 推导word2vec相应的版本word2mat的更新公式,检查是否保持归一化和对称性
 
# 思考如何做密度矩阵的激活函数,就好像矢量的激活函数一样
 
# 思考如何做密度矩阵的激活函数,就好像矢量的激活函数一样

2019年12月4日 (三) 11:12的最新版本


研究背景

前人的研究[1][2]已经发现,在自然语言处理中,用分布式矢量(就是每个分量上都可能有个值,而不是one-hot表示只有一个地方是1其他分量都是0)来表示词汇(以及句子、段落、篇章)可以很大程度上解决词汇之间的含以上的依赖关系,还可以提高计算效率。甚至提出了各种考虑了语言的长程关联的矢量表示算法。

著名的一个展示词汇之间含以上的依赖关系例子,就是:国王-男人=女王(皇后)-女人,并且在矢量表示上,这个等式也成立。也就说,大概来说,国王=男人+王位,女王=女人+王位。这个叠加确实看起来像是矢量叠加。但是,其实有另一种概率叠加,或者说,集合相加,例如,人=男人+女人,表示人这个集合是男人和女人这两个集合加起来(暂时不考虑其他性别的情况),或者说,当我说“走过来一个人”的时候,我指的可能是“走过来一个男人”,也可能是“走过来一个女人”。这叫做概率叠加。

于是,问题来了:是不是能够有一种表示,可以统一地描述这两种不同的含义上的依赖关系?

量子力学告诉我们,前者叫做相干叠加,采用矢量相加的数学:;后者叫做非相干叠加,采用概率叠加的形式:。两者相差中间的非对角元素。

核心思想

既然词汇在含以上具有这样两种依赖关系,而量子力学的数学也就是密度矩阵可以统一表示这两种关系,那么,我们为什么不试试用密度矩阵来表示词汇呢?也就是说,每一个词汇不再当做矢量来训练,而当做密度矩阵来训练,,然后相似性的计算变成。有了这个表示和相似性之后,只要用原来训练矢量表示的方法,就可以得到密度矩阵表示了。

问题

  1. 是不是其实密度矩阵表示可以被看做另一种矢量表示?

量子力学本身的研究已经告诉我们,不能。另外,我们也可以看到,关键的不同就在相似性计算上:把看做一个矢量,例如把所有的元素排成一列,当做列矢量,我们就发现,相似性的计算不是通常的矢量内积。

  1. 如何训练词义的叠加关系和概率相加关系?

第一阶段,我们完全可以参考word2vec的方法,用附近的词的方式来训练词的密度矩阵表示,只需要把矢量替换成矩阵(同时保证归一化和复对称),用矩阵相似性计算代替适量相似性计算。 将来我们需要考虑用更好的材料来加强词义的叠加关系和概率相加关系,例如概念地图(知识图谱、知识三元体集合)。

下一步研究

  1. 文献调研,看一看有没有其他人提出了这个词汇(句子、段落、篇章)的密度矩阵表示。前人的工作[3][4]有提出来还是用矢量来表示词汇,但是用密度矩阵来表示句子和文章。例如,[3]中每一个词矢量为而句子是或者。前者是矢量叠加,后者是概率叠加。其卖点是,可以直接用词汇矢量集合计算出来句子的密度矩阵。在我们这里,词汇和句子文章都不用人为决定是矢量叠加还是概率叠加,反正密度矩阵本来就同时包含两种叠加。对于具体的词和句,到底属于哪一种,都需要算出来。所以本质上,仍然不一样。不过,确实思想上相似的地方。
  2. 推导word2vec相应的版本word2mat的更新公式,检查是否保持归一化和对称性
  3. 思考如何做密度矩阵的激活函数,就好像矢量的激活函数一样
  4. 在一个语料库上做一下,检验一下词义的叠加关系和概率相加关系,在做一下阅读理解问答题等后续任务,比较一下效果。

参考文献

  1. T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781.
  2. T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119.
  3. 3.0 3.1 Qiuchi Li, Sagar Uprety, Benyou Wang, Dawei Song, Quantum-inspired Complex Word Embedding, arXiv:1805.11351
  4. Peng Zhang, Jiabin Niu, Zhan Su, Benyou Wang, Liqun Ma, Dawei Song, End-to-End Quantum-like Language Models with Application to Question Answering. AAAI 2018. https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/16720/16126

本分类目前不含有任何页面或媒体文件。