分类:全文本全要素矢量

来自Big Physics


研究背景

作者、单位、参考文献、方程、图片和图片说明、每一句话、每一段画、文章本身,都可以,和普通的词一样,当做语料中的一个词,用自然语言处理来得到这些对象的矢量表示。

这样的矢量获得之后,是否有助于解决一些科学学问题?例如,作者识别、单位识别、论文-研究主题分类、作者-研究主题分类、单位-研究主题概貌等等。

为什么可能会有帮助?考虑一篇论文,其主要研究什么的信息可以来自于两个方面,一个是其全文(包含其引用的其他论文),一个是其他论文对这篇文章的引用。如果我们把这两个信息结合起来,可能可以得到比单独一个方面的信息更好的表示这篇论文的矢量。

Jean-Charles Lamirel 有一篇类似的工作[1]

具体算法的思路

矢量表示

对文章的全文(文章DOI、标题、作者姓名、作者地址、摘要、关键词、参考文献,甚至将来包含数学符号、公式、图片)做word2vec或者BERT的矢量化训练。其中文章DOI存在两种表示:一种是doc2vec层级的整合全文以后的表示(主动表示),一种是其出现在其他论文的参考中当做词训练得到的表示(被动表示)。这两种表示可以分开使用,或者用某种方式整合起来。

类似地,我们甚至可以把参考文献[1]替换成[作者,地址,文章DOI],这样,作者、单位等也可以得到主动表示和被动表示。

后期任务和检验

对训练得到的矢量做聚类,可能可以用于作者识别、论文-主题分类,作者-主题分类、作者-作者关系发现等。当然,如何检验这些结果是个问题。应该可以结合科学学概念网络项目来开展这项研究。

参考文献

  1. 已经找Lamirel要

本分类目前不含有任何页面或媒体文件。