分类:网络顶点的矢量表示和应用

来自Big Physics
Jinshanw讨论 | 贡献2019年6月28日 (五) 10:23的版本
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)


网络顶点的矢量表示算法的研究在最近几年得到了比较迅速的发展[1] 。在大量的应用中,例如论文分类期刊分类作者识别概念识别引用骨架识别方程识别化学反应物官能团反应式识别科学学三层网络构建等,都会用到这样的表示。把主要思路和相关的几篇基础文献整理在这里。

研究背景

受word2vec等(GloVe、fasttext, ELMo, GPT, BERT, XLNet)词向量无监督学习的启发,人们希望把网络上的顶点也用矢量来表示,并且保持网络的某些性质。例如矢量可能更加适合用来做聚类分析等。当然,实际上,某种表示到底保持了什么性质,在这个表示下某些网络性质以及后续分析如何做也是一个问题。在这里,我们可以集中关注为了更好地得到聚类的矢量表示算法,也就是发现和保留了网络上的顶点之间的相似性的那样的表示。

那为什么要从词的矢量表示过渡到一般的网络上的顶点的表示呢?大概如何过渡呢?网络是个体之间有联系的一般表示方法,并且狭义上可以为每一种不同的联系构建一个网络,或者想办法把联系的内涵也用网络来表示。于是,网络就成了表示相互联系的事物的一般框架。这个时候,这样的网络上的顶点的矢量表示自然就具有比词语矢量更加一般的意义了。一个自然的解决方法是我们先用某种行走算法把网络上的近邻关系转化为语料中的词的先后出现关系(近邻关系、共现关系),然后,运用某种词矢量算法来得到顶点的矢量。

其中,某种行走算法可以是某种随机行走,或者直接就是网络的邻接矩阵,而某种词矢量算法可以是word2vec、GloVe、fasttext, ELMo, BERT,XLNet等。目前word2vec[2]和GloVe[3]用得比较多一些。

进一步研究

一个简单无脑的推广就是考虑其他矢量算法(要深入理解这些算法以后,用好各自的长处),一个更加复杂一点的思路就是考虑其他行走算法,一个原则就是在什么问题上来检验和使用这些算法并且最好还能够解决这个问题本身。因此,我们需要结合上面列举的科学学研究问题,一方面来尝试和检验新的算法,一方面来解决科学学的问题。

其中,考虑其他行走算法的问题,除了传统的按照不同的方案跳着走几步的思路之外,还可以保持仅仅考虑邻接矩阵,但是,增加对矢量化以后的矢量的特定计算。把基本数据基本模型和分析算法分开永远是一个好思路。既然网络本身的基本数学模型就是邻接矩阵,我们可能也可以从邻接矩阵出发得到(低维表示的)顶点矢量,然后对这些矢量做合适的运算来解决后续的分析任务。

顺便,就像word2vec可以看做是对共现矩阵的分解([4],同时GloVe就是这样来的),网络顶点矢量化方法也可以看做是对网络邻接矩阵的某种分解[5][6][7] 。因此,基于邻接矩阵来设计矢量化算法可能也是更加基本的一条路。

参考文献

  1. Yaojing Wang, Yuan Yao, Hanghang Tong, Feng Xu, Jian Lu, 2019, A Brief Review of Network Embedding, DOI:10.26599/bdma.2018.9020029
  2. A. Grover, J. Leskovec. node2vec: Scalable Feature Learning for Networks. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016.
  3. Robin Brochier, Adrien Guille, Julien Velcin, Global Vectors for Node Representations, WWW 2019, DOI:10.1145/3308558.3313595
  4. Omer Levy and Yoav Goldberg. 2014. Neural Word Embedding as Implicit Matrix Factorization. In NIPS. 2177-2185
  5. Jiezhong Qiu, Yuxiao Dong, Hao Ma, Jian Li, Kuansan Wang, Jie Tang, Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE, and node2vec, WSDM2018 DOI:10.1145/3159652.3159706
  6. Jiezhong Qiu, Yuxiao Dong, Hao Ma, Jian Li, Chi Wang, Kuansan Wang, Jie Tang, NetSMF: Large-Scale Network Embedding as Sparse Matrix Factorization, WWW 2019, DOI:10.1145/3308558.3313446
  7. Xin Liu, Tsuyoshi Murata, Kyoung-Sook Kim, Chatchawan Kotarasu, Chenyi Zhuang, A General View for Network Embedding as Matrix Factorization, WSDM 2019, DOI:10.1145/3289600.3291029

本分类目前不含有任何页面或媒体文件。