分类:作者识别
来自Big Physics
问题描述
最细的作者层级,就是把每一篇文章都当做来自于不同的作者,也就是把作者用文章来编号,例如First_Last_DOI,最粗的可以是First Initial_Last,也就是把每一个名的首字母和姓相同的都当做一个作者。当然,实际上后者还不是最粗的,会把改了名或者姓的人当成两个作者。这个在目前讨论的层面,忽略不计。那么,作者识别的问题就是找到一个介于最粗和最细的之间的一个识别,使得实际上相同的作者的文章都能够对应到同一个作者那里去。
在这里,我们想看看,包含主题-作者-论文的多层网络框架是否能够更好地识别作者作者。
例如,对于作者识别,有了作者和主题的对应,那么在某个合适的尺度下,出现同名的作者数量就会比较少了。因此,作者姓名,加上单位,加上专业的识别方式应该是已经比较严格的。如果过于严格,则可以考虑运用合作者来归并。技术上,对于作者是否属于一个主题,可以考虑用论文主题标注,或者用论文主题分类算法。
对于可检验数据的问题,可以通过参考基金机构的项目报告中整理出来的文章作者数据。也可以反过来,把这个基金文章作者数据当做训练集,来设计机器学习算法,或者某种扩散算法,把这个子集的数据想办法推广到整个数据集上去。这一点对于中国和韩国作者尤其有意义。
本分类目前不含有任何页面或媒体文件。