分类:作者识别

问题描述

最细的作者层级，就是把每一篇文章都当做来自于不同的作者，也就是把作者用文章来编号，例如First_Last_DOI，最粗的可以是First Initial_Last，也就是把每一个名的首字母和姓相同的都当做一个作者。当然，实际上后者还不是最粗的，会把改了名或者姓的人当成两个作者。这个在目前讨论的层面，忽略不计。那么，作者识别的问题就是找到一个介于最粗和最细的之间的一个识别，使得实际上相同的作者的文章都能够对应到同一个作者那里去。

在这里，我们想看看，包含主题－作者－论文的多层网络框架是否能够更好地识别作者作者。

例如，对于作者识别，有了作者和主题的对应，那么在某个合适的尺度下，出现同名的作者数量就会比较少了。因此，作者姓名，加上单位，加上专业的识别方式应该是已经比较严格的。如果过于严格，则可以考虑运用合作者来归并。技术上，对于作者是否属于一个主题，可以考虑用论文主题标注，或者用论文主题分类算法。

对于可检验数据的问题，可以通过参考基金机构的项目报告中整理出来的文章作者数据。也可以反过来，把这个基金文章作者数据当做训练集，来设计机器学习算法，或者某种扩散算法，把这个子集的数据想办法推广到整个数据集上去。这一点对于中国和韩国作者尤其有意义。

本分类目前不含有任何页面或媒体文件。

匿名

搜索

分类:作者识别

名字空间

更多

页面选项

问题描述

导航

导航

Wiki工具

Wiki工具

匿名

搜索

分类:作者识别

问题描述

导航

Wiki工具

页面工具

分类