分类:Poincaré Embeddings for Learning Hierarchical Representations

来自Big Physics
Jinshanw讨论 | 贡献2019年11月26日 (二) 09:56的版本


Maximilian Nickel, Douwe Kiela, Poincaré Embeddings for Learning Hierarchical Representations, arXiv:1705.08039 [cs.AI]

Abstract

Representation learning has become an invaluable approach for learning from symbolic data such as text and graphs. However, while complex symbolic datasets often exhibit a latent hierarchical structure, state-of-the-art methods typically learn embeddings in Euclidean vector spaces, which do not account for this property. For this purpose, we introduce a new approach for learning hierarchical representations of symbolic data by embedding them into hyperbolic space -- or more precisely into an n-dimensional Poincaré ball. Due to the underlying hyperbolic geometry, this allows us to learn parsimonious representations of symbolic data by simultaneously capturing hierarchy and similarity. We introduce an efficient algorithm to learn the embeddings based on Riemannian optimization and show experimentally that Poincaré embeddings outperform Euclidean embeddings significantly on data with latent hierarchies, both in terms of representation capacity and in terms of generalization ability.

Subjects: Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Machine Learning (stat.ML)

总结和评论

就像用欧氏空间的矢量来表示词语[1] [2] [3] [4](其中[4]这篇文章还研究了怎样把基于词汇共现的词矢量表示推广到基于网络上顶点共现的网络顶点表示) 一样,这篇文章[5]考虑了用黎曼空间(在这里是Poincare球)的矢量来表示词语等矢量。作者发现,对于大量的包含层级关系的系统来说,这个非欧空间中的矢量表示更合理。

确实,大量实际系统具有层级结构。机器学习在很大程度上可以看做是对层级结构的把握:很难一口气抓住所有的结构,只好一层一层来抓,也更简单。甚至,就像Yann LeCun 所说的“Deep Leaning = Learning Hierarchical Representation”(https://www.cs.tau.ac.il/~wolf/deeplearningmeeting/pdfs/lecun-20141105-tau-intel-master-class.pdf )。同时,这也就避免了依靠人类的脑子来设计特征提取。

那么,是不是这样的矢量化表示确实有独特的优势,甚至用其他的度规结果怎样,都是有意思的问题。这篇文章的参考文献有更多其他的度规的结果。

我自己的故事

[1]出来之后,我就在思考,是不是可以把这个方法转化成基于共现矩阵的分析。首先,这是因为共现矩阵可以跳过每次服务局部的数据来计算,从而可能得到更好的反映整体共现整体相似性的表示。其次,如果可以,我们就可以把这个方法推广到网络上去——网络不过就是一个邻接矩阵,或者说某种意义上的共现矩阵。

不过,这个问题由于本身知识所限(不懂LSA,没有PPMI这样的概念在脑子里),没有解决,直到[3]出来,并且后续工作揭示了两者的关系。所以,教训第一,有好的idea还需要配上好的学科专家和背景知识。

另一方面,一旦有了基于共现矩阵的矢量表示,是不是就可以用来表示网络顶点和边(尤其是边,边是联系)了呢?最简单的方法就是,直接把邻接矩阵当做共现矩阵。不过,遗憾的事情是,效果并不是很好。[6]提出了一个更加简单的思路:此表示不是需要语料吗,那我就从邻接矩阵通过随机行走来得到“语料”(顺便,加权网络如何进入语料?查一下),然后在运用矢量表示方法。所以,教训第二,由于太过坚持仅仅使用邻接矩阵,没有看到这个这么简单的额外思路。

当然,目前,我在思考边的矢量表示。这个问题应该还是新的(查一下)。实在不行,就先把边也当做一个词,进入语料好了。

参考文献

  1. 1.0 1.1 T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781.
  2. T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119.
  3. 3.0 3.1 Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation
  4. 4.0 4.1 Robin Brochier, Adrien Guille, Julien Velcin, Global Vectors for Node Representations, arXiv:1902.11004
  5. Maximilian Nickel, Douwe Kiela, Poincaré Embeddings for Learning Hierarchical Representations, arXiv:1705.08039 [cs.AI] .
  6. A. Grover, J. Leskovec. node2vec: Scalable Feature Learning for Networks. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016

本分类目前不含有任何页面或媒体文件。