研究背景

作者、单位、参考文献、方程、图片和图片说明、每一句话、每一段画、文章本身，都可以，和普通的词一样，当做语料中的一个词，用自然语言处理来得到这些对象的矢量表示。

这样的矢量获得之后，是否有助于解决一些科学学问题？例如，作者识别、单位识别、论文-研究主题分类、作者-研究主题分类、单位-研究主题概貌等等。

为什么可能会有帮助？考虑一篇论文，其主要研究什么的信息可以来自于两个方面，一个是其全文（包含其引用的其他论文），一个是其他论文对这篇文章的引用。如果我们把这两个信息结合起来，可能可以得到比单独一个方面的信息更好的表示这篇论文的矢量。

Jean-Charles Lamirel 有一篇类似的工作^[1]。

具体算法的思路

矢量表示

对文章的全文（文章DOI、标题、作者姓名、作者地址、摘要、关键词、参考文献，甚至将来包含数学符号、公式、图片）做word2vec或者BERT的矢量化训练。其中文章DOI存在两种表示：一种是doc2vec层级的整合全文以后的表示（主动表示），一种是其出现在其他论文的参考中当做词训练得到的表示（被动表示）。这两种表示可以分开使用，或者用某种方式整合起来。

类似地，我们甚至可以把参考文献[1]替换成[作者，地址，文章DOI]，这样，作者、单位等也可以得到主动表示和被动表示。

后期任务和检验

对训练得到的矢量做聚类，可能可以用于作者识别、论文-主题分类，作者-主题分类、作者-作者关系发现等。当然，如何检验这些结果是个问题。应该可以结合科学学概念网络项目来开展这项研究。

参考文献

↑ 已经找Lamirel要

本分类目前不含有任何页面或媒体文件。

[Lamirel-1] 已经找Lamirel要

[1]

匿名

搜索

分类:全文本全要素矢量

名字空间

更多

页面选项

目录

研究背景

具体算法的思路

矢量表示

后期任务和检验

参考文献

导航

导航

Wiki工具

Wiki工具

匿名

搜索

分类:全文本全要素矢量

研究背景

具体算法的思路

矢量表示

后期任务和检验

参考文献

导航

Wiki工具

页面工具

分类