分类:Poincaré Embeddings for Learning Hierarchical Representations

来自Big Physics


Maximilian Nickel, Douwe Kiela, Poincaré Embeddings for Learning Hierarchical Representations, arXiv:1705.08039 [cs.AI]

Abstract

Representation learning has become an invaluable approach for learning from symbolic data such as text and graphs. However, while complex symbolic datasets often exhibit a latent hierarchical structure, state-of-the-art methods typically learn embeddings in Euclidean vector spaces, which do not account for this property. For this purpose, we introduce a new approach for learning hierarchical representations of symbolic data by embedding them into hyperbolic space -- or more precisely into an n-dimensional Poincaré ball. Due to the underlying hyperbolic geometry, this allows us to learn parsimonious representations of symbolic data by simultaneously capturing hierarchy and similarity. We introduce an efficient algorithm to learn the embeddings based on Riemannian optimization and show experimentally that Poincaré embeddings outperform Euclidean embeddings significantly on data with latent hierarchies, both in terms of representation capacity and in terms of generalization ability.

Subjects: Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Machine Learning (stat.ML)

总结和评论

就像用欧氏空间的矢量来表示词语[1] [2] [3] [4](其中[4]这篇文章还研究了怎样把基于词汇共现的词矢量表示推广到基于网络上顶点共现的网络顶点表示。网络表示还可以参考[5] 以及 https://paperswithcode.com/task/network-embedding) 一样,这篇文章[6]考虑了用黎曼空间(在这里是Poincare球)的矢量来表示词语等矢量。作者发现,对于大量的包含层级关系的系统来说,这个非欧空间中的矢量表示更合理。

确实,大量实际系统具有层级结构。机器学习在很大程度上可以看做是对层级结构的把握:很难一口气抓住所有的结构,只好一层一层来抓,也更简单。甚至,就像Yann LeCun 所说的“Deep Leaning = Learning Hierarchical Representation”(https://www.cs.tau.ac.il/~wolf/deeplearningmeeting/pdfs/lecun-20141105-tau-intel-master-class.pdf )。同时,这也就避免了依靠人类的脑子来设计特征提取。

那么,是不是这样的矢量化表示确实有独特的优势,甚至用其他的度规结果怎样,都是有意思的问题。这篇文章的参考文献有更多其他的度规的结果。

我自己的故事和教训

[1]出来之后,我就在思考,是不是可以把这个方法转化成基于共现矩阵的分析。首先,这是因为共现矩阵可以跳过每次读取局部的数据来计算,从而可能得到更好的反映整体共现整体相似性的表示。其次,如果可以,我们就可以把这个方法推广到网络上去——网络不过就是一个邻接矩阵,或者说某种意义上的共现矩阵。

不过,这个问题由于本身知识所限(不懂LSA,没有PPMI这样的概念在脑子里),没有解决,直到[3]出来,并且后续工作揭示了两者的关系。所以,教训第一,有好的idea还需要配上好的学科专家和背景知识。

另一方面,一旦有了基于共现矩阵的矢量表示,是不是就可以用来表示网络顶点和边(尤其是边,边是联系)了呢?最简单的方法就是,直接把邻接矩阵当做共现矩阵。不过,遗憾的事情是,效果并不是很好。[7]提出了一个更加简单的思路:此表示不是需要语料吗,那我就从邻接矩阵通过随机行走来得到“语料”(或者更一般地,保距离表示,见[5][8][9]),然后在运用矢量表示方法。所以,教训第二,由于太过坚持仅仅使用邻接矩阵,没有看到这个这么简单的额外思路。

当然,目前,我在思考边的矢量表示。这个问题应该还是新的(所有的网络表示现在关注的是顶点[8][9][10]在可计算知识图谱中提出了关系的矢量表示。[11]提出来了同时表示实体和关系的一个算法)。实在不行,就先把边也当做一个词,进入语料好了。

下一步工作

  1. 把网络上边的表示用类似于node2vec的方法做出来,然后看看,是否能够更好地完成某个网络分析的任务,以及看看边的矢量能否有一些好的理解。
  2. 把上面得到的技能表示顶点有能表示边的网络表示方法用于概念地图,得到概念和关系的矢量表示,把这个表示结合来自于语料的词的矢量表示结合,放到语言模型中,看看这个语言模型是不是能够更好地完成后续下游任务,以及看看得到的更新以后的表示是不是代表了更好的理解。

实际上,这个问题和从语料得到概念地图以及概念地图帮助做语料分析有关系。

参考文献

  1. 1.0 1.1 T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781.
  2. T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119.
  3. 3.0 3.1 Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation
  4. 4.0 4.1 Robin Brochier, Adrien Guille, Julien Velcin, Global Vectors for Node Representations, arXiv:1902.11004
  5. 5.0 5.1 Nelson Walter, Zitnik Marinka, Wang Bo, Leskovec Jure, Goldenberg Anna, Sharan Roded, To Embed or Not: Network Embedding as a Paradigm in Computational Biology, Frontiers in Genetics, 10, 381, 2019
  6. Maximilian Nickel, Douwe Kiela, Poincaré Embeddings for Learning Hierarchical Representations, arXiv:1705.08039 [cs.AI] .
  7. A. Grover, J. Leskovec. node2vec: Scalable Feature Learning for Networks. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016
  8. 8.0 8.1 Peng Cui, Xiao Wang, Jian Pei, Wenwu Zhu,A Survey on Network Embedding
  9. 9.0 9.1 Haochen Chen, Bryan Perozzi, Rami Al-Rfou, Steven Skiena, A Tutorial on Network Embeddings
  10. Han Xiao, Minlie Huang, Xiaoyan Zhu, TransG : A Generative Model for Knowledge Graph Embedding
  11. Ristoski P., Paulheim H. (2016) RDF2Vec: RDF Graph Embeddings for Data Mining. In: Groth P. et al. (eds) The Semantic Web – ISWC 2016. ISWC 2016. Lecture Notes in Computer Science, vol 9981. Springer, Cham

本分类目前不含有任何页面或媒体文件。