分类:用于文章主题识别等任务的自然语言处理技术

来自Big Physics


研究背景

分类是很多研究的基础。例如,从对每一篇文章的了解过渡到对整个领域或者某个分支领域的了解,需要做粗粒化,需要做文章主题识别。例如,每一个领域的平均引用次数不一样,如果需要实现被引次数在不同领域之间比较,就需要转化一下一个“货币”,而这个转化的基础就是一个好的领域识别。

同时,大量的科学学研究也需要在领域的层面来开展,例如这个领域目前的热点、困难点和可能的突破点怎样,一个领域如何受其他领域的支撑以及支撑其他领域。也就是说,文章的层面可能太细了,文章的分类——领域是一个比较合适的粗粒化,而大量问题的研究需要这个粗粒化。

分类方法

这个识别工作主要的思想是利用文章引用网络得到网络相似性,结合文章的标题摘要甚至全文来判断文章得到的语义相似性,然后运用相似性来做某种聚类。具体方法上思考自然语言处理技术word2vec和LDA的结合。或者word2vec和pLSA的结合,以及更多的其他自然语言处理技术和网络矢量化技术(见Tan等2019)。

word2vec和node2vec的结合

更具体一点,word2vec和LDA的结合就是用文章的文本(全文或者标题摘要关键词)和文章之间的引用网络一起把文章矢量化,然后用这些矢量表示来分类。也就是换一个角度来看word2vec或者更像GloVe,可以把它看作是网络的矢量表示:在这个网络上,每一个词有到周围其他词的连边。于是,自然文章引用网络也就可以用这样的方法来给每一篇文章找到矢量表示,node2vec(word2vec的推广)模型就是实现对网络节点的矢量表示的方法。这时候,再结合doc2vec(word2vec的推广)就可以得到基于内容的文章矢量表示。把两种矢量表示结合,例如通过直和([math]\displaystyle{ \left[u,v\right] }[/math],相当于两个概率平均)或者直积([math]\displaystyle{ u\otimes v }[/math],相当于两个概率乘起来),甚至元素乘积([math]\displaystyle{ \left[u,v, u.v\right] }[/math],一定程度上结合了直和和直积),再来做聚类就有可能可以得到更好的文章分类。

目前的研究发现,这个结合起来的矢量分类效果还不错。

全文纯word2vec

得到论文的全文,把全文中引用的参考文献替换成文献的唯一编码,例如DOI,看作一个词。对这个扩大了的文本(文本、文献都是词)用word2vec,可以同时得到论文和词语的矢量表示。然后用得到的论文的矢量表示来做论文分类。此外,得到的词语也可以做层次性聚类,甚至计算词语和论文之间的相似性,来得到一个不同层次的主题的分类体系,以及文章和主题的对应关系。

这个研究需要全文数据,可以先在某个小集合上做一个实验。例如获取所有的科学计量学论文或者APS论文,来训练。在全文上,除了PMC,Elsevier有能够获得全文的API(胡志刚)。

注意,没有被引用的文章可能得通过doc2vec来获得矢量表示。已经有被引的文章还要结合通过词(DOI)以及通过doc来获得矢量的方式来获得矢量。

在计算文章矢量表示的过程中,区分参考文献中出现的文章的矢量,以及正文的矢量,然后对比同一篇文章在这两个情况下的矢量,会是一个有意思的问题。

具体算法上,除了word2vec还可以考虑BERT算法,可以产生带有context的矢量表示。

另外,全文word2vec还可以用于得到作者、地址矢量,用于作者识别和机构识别,甚至用于作者贡献的识别(假设一个作者的主要领域和主要风格是比较固定的可以用自然语言处理探测到,再假设主要领域相关的科学家起到主要作用。当然,这些假设就需要比较多的同一个作者的论文全文数据)。

依靠全文,忘掉参考文献列表,把引文推荐出来?

这个工作实际上属于引用骨架挖掘,就是通过全文的word2vec来计算每一篇文章的相似性,以及每篇文章的某种重要性,然后,对于给定篇章,推荐合适的参考文献。为什么可以用于骨架识别呢?那些出现在推荐列表中的论文是不是可以当做真引用?

当然,也可以在上一个工作,也就是全文和引文结合的word2vec的基础上,来推荐给定篇章的参考文献。

论文矢量和类矢量同时训练?

Fast text算法可以同时训练被分类的对象的适量表示和类的矢量表示,是不是在论文分类问题上也可以用一下?

人工和机器结合?

依靠整个社区的力量,做一个学科概念列表和文献概念标记?结合自然语言处理技术,发现和修订概念集合,发现和修订概念标记,发现和修订分类标记。

从聚类算法算法来说,还可以考虑去掉一些高社团交叉性的论文。

Kevin和Nees等人的算法和对比

算出来基于全文word2vec,或者基于全文加上引用的word2vec,交给Kevin去做对比。

参考文献

  1. K. Boyack, W. Glänzel, J. Gläser, F. Havemann, A. Scharnhorst, B. Thijs, N. van Eck, T. Velden & Ludo Waltmann, Topic identification challenge, Scientometrics (2017) 111: 1223. doi:10.1007/s11192-017-2307-0
  2. J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—Different results? Towards a comparative approach to the identification of thematic structures in science. Special Issue of Scientometrics. doi:10.1007/s11192-017-2296-z
  3. Boyack, K. W. (2017a). Investigating the effect of global data on topic detection. In J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—different results? Towards a comparative approach to the identification of thematic structures in science, Special Issue of Scientometrics. doi:10.1007/s11192-017-2297-y
  4. Boyack, K. W. (2017b). Thesaurus-based methods for mapping contents of publication sets. In J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—different results? Towards a comparative approach to the identification of thematic structures in science, Special Issue of Scientometrics. doi:10.1007/s11192-017-2304-3
  5. Boyack, K. W., & Klavans, R. (2010). Co-citation analysis, bibliographic coupling, and direct citation: Which citation approach represents the research front most accurately? Journal of the American Society for Information Science and Technology, 61(12), 2389–2404
  6. Glänzel, W., & Thijs, B. (2017). Using hybrid methods and `core documents’ for the representation of clusters and topics: The astronomy dataset. In J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—different results? Towards a comparative approach to the identification of thematic structures in science, Special Issue of Scientometrics. doi:10.1007/s11192-017-2301-6
  7. Havemann, F., Gläser, J., & Heinz, M. (2017). Memetic search for overlapping topics based on a local evaluation of link communities. In J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—different results? Towards a comparative approach to the identification of thematic structures in science, Special Issue of Scientometrics. doi:10.1007/s11192-017-2302-5
  8. Klavans, R., & Boyack, K. W. (2015). Which type of citation analysis generates the most accurate taxonomy of scientific and technical knowledge? http://arxiv.org/abs/1511.05078.
  9. Koopman, R., & Wang, S. (2017). Mutual information based labelling and comparing clusters. In J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—different results? Towards a comparative approach to the identification of thematic structures in science, Special Issue of Scientometrics. doi:10.1007/s11192-017-2305-2.
  10. Koopman, R., Wang, S., & Scharnhorst, A. (2017). Contextualization of topics (extended): Browsing through the universe of bibliographic information. In J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—different results? Towards a comparative approach to the identification of thematic structures in science, Special Issue of Scientometrics. doi:10.1007/s11192-017-2303-4
  11. Šubelj, L., van Eck, N. J., & Waltman, L. (2016). Clustering scientific publications based on citation relations: A systematic comparison of different methods. PLoS ONE, 11(4), e0154404
  12. Van Eck, N. J., & Waltman, L. (2017). Citation-based clustering of publications using CitNetExplorer and VOSviewer. In J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—different results? Towards a comparative approach to the identification of thematic structures in science, Special Issue of Scientometrics. doi:10.1007/s11192-017-2300-7
  13. Velden, T., Yan, S., & Lagoze, C. (2017b). Mapping the cognitive structure of astrophysics by infomap: Clustering of the citation network and topic affinity analysis. In J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—different results? Towards a comparative approach to the identification of thematic structures in science, Special Issue of Scientometrics. doi:10.1007/s11192-017-2299-9.
  14. Waltman, L., & van Eck, N. J. (2012). A new methodology for constructing a publication-level classification system of science. Journal of the American Society for Information Science and Technology, 63(12), 2378–2392
  15. Wang, S., & Koopman, R. (2017). Clustering articles based on semantic similarity. In J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—different results? Towards a comparative approach to the identification of thematic structures in science, Special Issue of Scientometrics. doi:10.1007/s11192-017-2298-x
  16. Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77–84
  17. Thijs, Bart and Glänzel, Wolfgang and Meyer, Martin S. (2015) Using noun phrases extraction for the improvement of hybrid clustering with text- and citation-based components. The example of “Information Systems Research”. In: Proc. of the Workshop Mining Scientific Papers: Computational Linguistics and Bibliometrics, 15th International Society of Scientometrics and Informetrics Conference (ISSI), Istanbul, Turkey, 29/6/2015, Istanbul
  18. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
  19. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111-3119).
  20. Le, Q., & Mikolov, T. (2014, January). Distributed representations of sentences and documents. In International Conference on Machine Learning (pp. 1188-1196).
  21. Grover, A., & Leskovec, J. (2016, August). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 855-864). ACM.
  22. Qiaoyu Tan, Ninghao Liu, Xia Hu, Deep Representation Learning for Social Network Analysis, arXiv:1904.08547