分类:科学计量学导引

来自Big Physics


核心思路和理念

基于网络科学的大科学学

系联、间接影响

从科学(作者、论文、概念)到科学,从科学(论文)到技术(专利),从技术到技术,从科学和技术到产品,从产品到产品,从产品到研发经费,从科学研究到科学的传播和学习

数据框架、问题框架、计算分析方法、实践检验、促进科学技术的发展转播和学习

为了建立这个框架而做的具体研究


本书的写作目的:把科学计量学的研究对象、研究问题和典型思维方式以及分析方法,以及这个学科如何服务于社会和其他学科,用统一的框架呈现出来,促进学科的成熟和发展。将来,这个学科的研究就可以表述成为:在这个基础数据框架(有必要也是可以更新这个数据框架的)上,我们研究什么问题,我们需要什么方法,可以发挥什么作用。

科学计量学的学科大图景

典型研究对象、典型研究问题、典型思维方式、典型分析方法、和世界以及其他学科的关系。暂时见[吴金闪的工作和思考]博客站点上的[什么是科学计量学],其中也包含一些重要综述论文[1] [2]、经典文献和教材[3]的整理。

科学计量学是以科学家(广义的,包含研究科学家、技术发明者、以及相关的期刊出版参与和管理者、科技项目和基金管理者、传播科学的老师、接受传播的学生和大众等)的研究学习和教学活动、科学家活动的结果记录,以及跟这些活动相关的这些记录的审稿、出版、传播以及科学研究项目和基金的管理等,为研究对象,旨在促进科学的发展、科学家的培养和成长、科学的传承和传播,的一门科学。

科学和科学研究

可计算的数学模型,现实,可证伪性和可重复性,尽量忠实尽量简单的表示

概念网络:知识高速公路

概念网络、概念网络与科学研究和科学传播的关系

科学计量学的数据

科学计量学的数据框架

作者-论文-概念三层网络框架[4],发明人-专利-技术三层网络框架,性别、位置(必要的时候可以成为网络)、期刊等数据作为顶点的属性 3layer.jpg Patent Paper.png

科学计量学数据的精炼

  1. 以搜索引擎为基础的学术数据库:Google Scholar,Microsoft Academic Graph
  2. 科学学数据库:Web of Science, Scopus,Dimensions, OpenCitations, Lens, CrossRef, PubMed
  3. 领域科学学数据库:APS, MathSciNet, JEL, CAS
  4. 专利:USPTO
  5. 基金:NIH, NSF
  6. 书籍:Google ngram
  7. 知识库:Wikipedia,学科概念网络、汉字地图

文章数据包含:作者、标题、作者单位、期刊(名称、卷期页、年)、参考文献、摘要、全文、基金项目号标注、致谢、作者贡献说明 专利数据包含:发明人(单位)、标题、授权号、专利类别、参考文献、摘要、全文、转化 书籍:作者、出版商(地址、年)、词频、引文(?) 学科概念网络:包含概念和概念之间的关系

[5]把其中一些数据库做了介绍,并提到了一些做数据库对比的文章。 [6]提到了一些知识库可以当做科学学的研究对象。


需要再加入一些对比数据的参考文献。

作者识别

为什么会有姓名识别的问题?

不完整的名字,相同的名字,工作单位的迁移,研究领域的迁移,聚合和拆分的问题

姓名识别如何做?

[7]衡量了最简单的算法——姓的全部和名的第一个字母——的准确率。

[8][9][10][11]发展了更复杂的算法,例如中国人的姓名的识别、学术单位、研究领域信息用于姓名识别等。


姓名识别的结果如何检验?

Orcid数据([1]),ResearchGate数据,官方email数据,各个国家各个学术单位的统计数据,Norwegian模型[12]

[13]提供了一些可供检验的数据。

机构识别问题

引用骨架识别和赋权

引用关系是基本上所有的科学学分析的基础,是科学学主体关系里面最重要的关系。可是,是不是所有的引用都是有效的,或者说同样权重地有效的,引用呢?其基本单位是不是可以看作是一次引用就是一呢?是不是其实有的时候,一篇文章引用其他文章仅仅表示我也看过了这个研究,而不是真的受这个文章的启发呢?也就是说,科学学核心数据要解决的第一个问题就是“是不是所有的引用都需要纳入统计,并且按照同样的单位来纳入统计”?我们称这个问题为引用骨架的识别和赋权。

[14][15][16][17]做了初步的研究。

粗粒化

粗粒化就是把研究论文聚成类,可以是相当于概念或者主题的类,也可以是相当于学科或者学科方向的类。一般来说所聚出来的类有一定的层级结构。

为什么需要粗粒化。 [1]指出来为什么从评价的角度,粗粒化也就是论文聚类是重要的。


粗粒化怎么做?

[18]发展了网络科学聚类算法(CWTS聚类算法)来用于文章聚类。

[19]把自然语言处理用于文章聚类。

[20]发展了把引用和文本结合的聚类方法。

自然语言处理技术word2vec[21]、GloVe[22]、Doc2Vec[23]在词汇的基础上还考虑了词汇之间的语义联系,用来聚类。网络表示算法node2vec[24]也可以通过引用网络得到顶点的矢量表示。

粗粒化的结果怎么检验?

[25]对比了几种论文聚类的算法。

科学计量学的任务

科学领域及其相互关系

技术领域及其相互关系

科学-技术关系

[26][27][28][29][30][31][32]利用专利引用学术论文的数据研究了科学和技术之间的关联。

科学-技术-经济相互关系

经济产业部门的相互关系

加上科学和技术到产品的联系

科学家活动的模式

科学出版的模式

评价指标和科研管理

[1]总结了关于影响因子的研究的现状、动机和未来方向。

教和学科学

科学计量学的思维方式和分析方法

科学计量学之科学思维和科学方法

网络科学的思想和技术

[33] 介绍了网络科学的基本精神,并把网络研究分成几个方面做了总结。 [34] 整理了用网络的思想和方法来研究科学学的工作。 网络科学方面的入门书还有[35][36][37],以及吴金闪的《系统科学导引》[38]

关系为王

几何性,一切都是关系并且只有关系

直接和间接联系

一级近邻不需要网络分析,间接影响

新框架下的共现分析

作者-作者共现,共施引,共被引,作者-主题共现,主题-主题共现

统计分析

对排序指标的需求,均值,检验,百分比,h指数,领域归一化(需要网络分析)

[1]总结了关于影响因子的研究的现状、动机和未来方向。

作为分析技术的网络分析

主题分类,共施引,共被引,合作网络分析,Eigenfactor[39] ,IOfactor[40]

典型方法用于典型问题

数据精炼问题的解决

粗粒化问题的解决

[25]对比了几种论文聚类的算法。

科学家活动模式分析

科学出版活动模式分析

评价指标和科研管理问题的解决

[1]总结了关于影响因子的研究的现状、动机和未来方向。 [39][41][42][43](其中[42]是一个mini review,[43] 做了一个直接引用和PageRank方法的结果的比较)把网络科学和PageRank算法用于期刊、作者、研究机构、论文影响力度量。

相互关系问题的分析

科学的教和学问题的分析

参考文献

  1. 1.0 1.1 1.2 1.3 1.4 Waltman, Ludo, A review of the literature on citation impact indicators, JOURNAL OF INFORMETRICS, 10(2) 365-391(2016), DOI: 10.1016/j.joi.2016.02.007 .
  2. John Mingers, Loet Leydesdorff, A review of theory and practice in scientometrics, European Journal of Operational Research, 246(1), 2015, 1-19, ISSN 0377-2217, https://doi.org/10.1016/j.ejor.2015.04.002
  3. Ronald Rousseau and Leo Egghe and Raf Guns,Becoming Metric-Wise:A Bibliometric Guide for Researchers, Chandos Publishing,2018.
  4. Jinshan Wu,Infrastructure of Scientometrics: The Big and Network Picture, Journal of Data and Information Science Pub Date : 2019-12-27 , DOI: 10.2478/jdis-2019-0017.
  5. Harinarayana, N. S. (2015) Data sources and software tools for bibliometric studies.
  6. Sergey Parinov,Mikhail Kogalovsky,Semantic linkages in research information systems as a new data source for scientometric studies, Scientometrics 98(2), 927–943(2014).
  7. Staša Milojević, Accuracy of simple, initials-based methods for author name disambiguation, Journal of Informetrics 7, 767-773(2013). https://doi.org/10.1016/j.joi.2013.06.006 .
  8. Christian Schulz, Amin Mazloumian, Alexander M Petersen, Orion Penner and Dirk Helbing, Exploiting citation networks for large-scale author name disambiguation, EPJ Data Science 20143:11 https://doi.org/10.1140/epjds/s13688-014-0011-3 .
  9. Jinseok Kim and Jana Diesner, Distortive effects of initial‐based name disambiguation on measurements of large‐scale coauthorship networks, JASIST, 67, 1446-1461(2016). https://doi.org/10.1002/asi.23489 .
  10. Wei-Sheng Chin, Yong Zhuang, Yu-Chin Juan, Felix Wu, Hsiao-Yu Tung, Tong Yu, Jui-Pin Wang, Cheng-Xia Chang, Chun-Pai Yang, Wei-Cheng Chang, Kuan-Hao Huang, Tzu-Ming Kuo, Shan-Wei Lin, Young-San Lin, Yu-Chen Lu, Yu-Chuan Su, Cheng-Kuang Wei, Tu-Chun Yin, Chun-Liang Li, Ting-Wei Lin, Cheng-Hao Tsai, Shou-De Lin, Hsuan-Tien Lin, Chih-Jen Lin; Effective String Processing and Matching for Author Disambiguation http://jmlr.org/papers/v15/chin14a.html .
  11. Roberta Sinatra, Dashun Wang, Pierre Deville, Chaoming Song, Albert-László Barabási, Quantifying the evolution of individual scientific impact, Science 354(6312), aaf5239(2016), DOI: 10.1126/science.aaf5239 .
  12. Gunnar Sivertsen, Publication-Based Funding: The Norwegian Model, Research Assessment in the Humanities, 79-90(2016).
  13. Müller, MC., Reitz, F. & Roy, N. Data sets for author name disambiguation: an empirical analysis and a new resource, Scientometrics (2017) 111: 1467. https://doi.org/10.1007/s11192-017-2363-5 .
  14. Xiaodan Zhu, Peter Turney, Daniel Lemire & André Vellino, Measuring academic influence: Not all citations are equal, Journal of the Association for Information Science and Technology, 66(2), 408, DOI: http://doi.org/10.1002/asi.23179
  15. Marco Valenzuela, Vu Ha and Oren Etzioni, Identifying Meaningful Citations, http://go.nature.com/2th2voa
  16. James R. Clough, Jamie Gollings, Tamar V. Loach & Tim S. Evans, Transitive reduction of citation networks, J Complex Netw (2015) 3 (2): 189-203. DOI: https://doi.org/10.1093/comnet/cnu039
  17. Munui Kim Injun Baek Min Song, Topic diffusion analysis of a weighted citation network in biomedical literature, JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY 69(2)329-342(2018) https://doi.org/10.1002/asi.23960
  18. Waltman, L., & van Eck, N. J. (2012). A new methodology for constructing a publication-level classification system of science. Journal of the American Society for Information Science and Technology, 63(12), 2378–2392.
  19. Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77–84.
  20. Glänzel, W., & Thijs, B. (2017). Using hybrid methods and `core documents’ for the representation of clusters and topics: The astronomy dataset. In J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—different results? Towards a comparative approach to the identification of thematic structures in science, Special Issue of Scientometrics. doi:10.1007/s11192-017-2301-6 .
  21. Mikolov, Tomas; et al. "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781.
  22. Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation.
  23. https://radimrehurek.com/gensim/models/doc2vec.html, https://deeplearning4j.org/docs/latest/deeplearning4j-nlp-doc2vec .
  24. node2vec: Scalable Feature Learning for Networks. A. Grover, J. Leskovec. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016.
  25. 25.0 25.1 Boyack, K. W., & Klavans, R. (2010). Co-citation analysis, bibliographic coupling, and direct citation: Which citation approach represents the research front most accurately? Journal of the American Society for Information Science and Technology, 61(12), 2389–2404.
  26. Narin F. Patent bibliometrics[J]. Scientometrics, 1994, 30(1):147-155.
  27. Narin F, Hamilton K S, Olivastro D. Linkage between agency-supported research and patented industrial technology[J]. Research Evaluation, 1995, 5(3):183-187.
  28. Narin F, Hamilton K S, Olivastro D. The increasing linkage between U.S. technology and public science[J]. Research Policy, 1997, 26(3):317-330.
  29. Narin F, Olivastro D. Linkage between patents and papers: An interim EPO/US comparison[J]. Scientometrics, 1998, 41(1):51-59.
  30. Narin F. Tracing the paths from basic research to economic impact[J]. F&M Scientist, 2012.
  31. Verbeek A, Debackere K, Luwel M, et al. Linking science to technology: Using bibliographic references in patents to build linkage schemes[J]. Scientometrics, 2002, 54(3):399-420.
  32. Li D., Azoulay P., Sampat B.N. The applied value of public investments in biomedical research[J]. Science, 2017, 356 78-81.
  33. 吴金闪,狄增如,从统计物理学看复杂网络研究,物理学进展,24(1),18-46(2004).
  34. An Zeng, Zhesi Shen, Jianlin Zhou, Jinshan Wu, Ying Fan, Yougui Wang, H Eugene Stanley. 2017. "The science of science: From the perspective of complex systems." PHYSICS REPORTS-REVIEW SECTION OF PHYSICS LETTERS, 714, 1-74 (2017).
  35. Albert-László Barabási, Network Science, http://networksciencebook.com/ .
  36. MEJ Newman, Introduction to Networks.
  37. 汪小帆, 李翔 , 陈关荣, 《网络科学导论》.
  38. 吴金闪,《系统科学导引》, http://www.systemsci.org/jinshanw/books.
  39. 39.0 39.1 Carl T. Bergstrom, Jevin D. West and Marc A. Wiseman, The Eigenfactor™ Metrics, Journal of Neuroscience, 28 (45) 11433-11434(2008). DOI: https://doi.org/10.1523/JNEUROSCI.0003-08.2008 .
  40. Zhesi Shen, Liying Yang, Jiansuo Pei, Menghui Li, Chensheng Wu, Jianzhang Bao, Tian Wei, Zengru Di, Ronald Rousseau, Jinshan Wu, Interrelations among scientific fields and their relative influences revealed by an input–output analysis, Journal of Informetrics 10, 82-97(2016). Doi:10.1016/j.joi.2015.11.002.
  41. P.Chen H.Xie S.Maslov S.Rednera, Finding scientific gems with Google’s PageRank algorithm, Journal of Informetrics, 1(1), 8-15(2007). https://doi.org/10.1016/j.joi.2006.06.001
  42. 42.0 42.1 Sergei Maslov and Sidney Redner, Promise and Pitfalls of Extending Google's PageRank Algorithm to Citation Networks, Journal of Neuroscience28 (44) 11103-11105(2008); DOI: https://doi.org/10.1523/JNEUROSCI.0002-08.2008
  43. 43.0 43.1 Dalibor Fiala, Gabriel Tutoky, PageRank-based prediction of award-winning researchers and the impact of citations, Journal of Informetrics,11(4),1044-1068(2017), https://doi.org/10.1016/j.joi.2017.09.008

本分类目前不含有任何页面或媒体文件。