分类:网络顶点的矢量表示和应用
网络顶点的矢量表示算法的研究在最近几年得到了比较迅速的发展[1] 。在大量的应用中,例如论文分类、期刊分类、作者识别、概念识别、引用骨架识别、科学学三层网络构建等,都会用到这样的表示。把主要思路和相关的几篇基础文献整理在这里。
研究背景
受word2vec等(GloVe、fasttext, ELMo, BERT)词向量无监督学习的启发,人们希望把网络上的顶点也用矢量来表示,并且保持网络的某些性质。例如矢量可能更加适合用来做聚类分析等。当然,实际上,某种表示到底保持了什么性质,在这个表示下某些网络性质以及后续分析如何做也是一个问题。在这里,我们可以集中关注为了更好地得到聚类的矢量表示算法,也就是发现和保留了网络上的顶点之间的相似性的那样的表示。
那为什么要从词的矢量表示过渡到一般的网络上的顶点的表示呢?大概如何过渡呢?网络是个体之间有联系的一般表示方法,并且狭义上可以为每一种不同的联系构建一个网络,或者想办法把联系的内涵也用网络来表示。于是,网络就成了表示相互联系的事物的一般框架。这个时候,这样的网络上的顶点的矢量表示自然就具有比词语矢量更加一般的意义了。一个自然的解决方法是我们先用某种行走算法把网络上的近邻关系转化为语料中的词的先后出现关系(近邻关系、共现关系),然后,运用某种词矢量算法来得到顶点的矢量。
其中,某种行走算法可以是某种随机行走,或者直接就是网络的邻接矩阵,而某种词矢量算法可以是word2vec、GloVe、fasttext, ELMo, BERT等。目前word2vec[2]和GloVe[3]用得比较多一些。
参考文献
- ↑ Yaojing Wang, Yuan Yao, Hanghang Tong, Feng Xu, Jian Lu, 2019, A Brief Review of Network Embedding, DOI:10.26599/bdma.2018.9020029
- ↑ A. Grover, J. Leskovec. node2vec: Scalable Feature Learning for Networks. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016.
- ↑ Robin Brochier, Adrien Guille, Julien Velcin, Global Vectors for Node Representations, WWW 2019, DOI:10.1145/3308558.3313595
引用错误:在<references>
中以“Tang:NetMF1”名字定义的<ref>
标签没有在先前的文字中使用。
引用错误:在<references>
中以“Tang:NetMF2”名字定义的<ref>
标签没有在先前的文字中使用。
引用错误:在<references>
中以“Liu:NetMF”名字定义的<ref>
标签没有在先前的文字中使用。
本分类目前不含有任何页面或媒体文件。