分类:作者识别
来自Big Physics
问题描述
最细的作者层级,就是把每一篇文章都当做来自于不同的作者,也就是把作者用文章来编号,例如First_Last_DOI,最粗的可以是First Initial_Last,也就是把每一个名的首字母和姓相同的都当做一个作者。当然,实际上后者还不是最粗的,会把改了名或者姓的人当成两个作者。这个在目前讨论的层面,忽略不计。那么,作者识别的问题就是找到一个介于最粗和最细的之间的一个识别,使得实际上相同的作者的文章都能够对应到同一个作者那里去。
主要思路
在这里,我们想看看,包含主题-作者-论文的多层网络框架是否能够更好地识别作者作者。
例如,对于作者识别,有了作者和主题的对应,那么在某个合适的尺度下,出现同名的作者数量就会比较少了。因此,作者姓名,加上单位,加上专业的识别方式应该是已经比较严格的。如果过于严格,则可以考虑运用合作者来归并。技术上,对于作者是否属于一个主题,可以考虑用论文主题标注,或者用论文主题分类算法。
可检验数据
对于可检验数据的问题,可以通过参考基金机构的项目报告中整理出来的文章作者数据。也可以反过来,把这个基金文章作者数据当做训练集,来设计机器学习算法,或者某种扩散算法,把这个子集的数据想办法推广到整个数据集上去。这一点对于中国和韩国作者尤其有意义。
参考文献
- Müller, MC., Reitz, F. & Roy, N. Scientometrics (2017) 111: 1467. https://doi.org/10.1007/s11192-017-2363-5
- Staša Milojević, Accuracy of simple, initials-based methods for author name disambiguation, Journal of Informetrics 7, 767-773(2013). https://doi.org/10.1016/j.joi.2013.06.006
- Christian Schulz, Amin Mazloumian, Alexander M Petersen, Orion Penner and Dirk Helbing, Exploiting citation networks for large-scale author name disambiguation, EPJ Data Science 20143:11 https://doi.org/10.1140/epjds/s13688-014-0011-3
- Jinseok Kim Jana Diesner, Distortive effects of initial‐based name disambiguation on measurements of large‐scale coauthorship networks, JASIST, 67, 1446-1461(2016). https://doi.org/10.1002/asi.23489
本分类目前不含有任何页面或媒体文件。