分类:科学计量学导引
核心思路和理念
基于网络科学的大科学学
系联、间接影响
从科学(作者、论文、概念)到科学,从科学(论文)到技术(专利),从技术到技术,从科学和技术到产品,从产品到产品,从产品到研发经费,从科学研究到科学的传播和学习
数据框架、问题框架、计算分析方法、实践检验、促进科学技术的发展转播和学习
为了建立这个框架而做的具体研究
本书的写作目的:把科学计量学的研究对象、研究问题和典型思维方式以及分析方法,以及这个学科如何服务于社会和其他学科,用统一的框架呈现出来,促进学科的成熟和发展。将来,这个学科的研究就可以表述成为:在这个基础数据框架(有必要也是可以更新这个数据框架的)上,我们研究什么问题,我们需要什么方法,可以发挥什么作用。
科学计量学的学科大图景
典型研究对象、典型研究问题、典型思维方式、典型分析方法、和世界以及其他学科的关系。暂时见[吴金闪的工作和思考]博客站点上的[什么是科学计量学]。
科学计量学是以科学家(广义的,包含研究科学家、技术发明者、以及相关的期刊出版参与和管理者、科技项目和基金管理者、传播科学的老师、接受传播的学生和大众等)的研究学习和教学活动、科学家活动的结果记录,以及跟这些活动相关的这些记录的审稿、出版、传播以及科学研究项目和基金的管理等,为研究目标,旨在促进科学的发展、科学家的培养和成长、科学的传承和传播,的一门科学。
科学和科学研究
可计算的数学模型,现实,可证伪性和可重复性,尽量忠实尽量简单的表示
概念网络:知识高速公路
概念网络、概念网络与科学研究和科学传播的关系
科学计量学的数据
科学计量学的数据框架
作者-论文-概念三层网络框架,发明人-专利-技术三层网络框架,性别、位置(必要的时候可以成为网络)、期刊等数据作为顶点的属性
科学计量学数据的精炼
- 以搜索引擎为基础的学术数据库:Google Scholar,Microsoft Academic Graph
- 科学学数据库:Web of Science, Scopus,Dimensions, OpenCitations, Lens, CrossRef, PubMed
- 领域科学学数据库:APS, MathSciNet, JEL, CAS
- 专利:USPTO
- 基金:NIH, NSF
- 书籍:Google ngram
- 知识库:Wikipedia,学科概念网络、汉字地图
文章数据包含:作者、标题、作者单位、期刊(名称、卷期页、年)、参考文献、摘要、全文、基金项目号标注、致谢、作者贡献说明 专利数据包含:发明人(单位)、标题、授权号、专利类别、参考文献、摘要、全文、转化 书籍:作者、出版商(地址、年)、词频、引文(?) 学科概念网络:包含概念和概念之间的关系
[1]把其中一些数据库做了介绍,并提到了一些做数据库对比的文章。 [2]提到了一些知识库可以当做科学学的研究对象。
需要再加入一些对比数据的参考文献。
作者识别
为什么会有姓名识别的问题?
不完整的名字,相同的名字,工作单位的迁移,研究领域的迁移,聚合和拆分的问题
姓名识别如何做?
[3]衡量了最简单的算法——姓的全部和名的第一个字母——的准确率。
[4]、[5] 、[6] 、[7]发展了更复杂的算法,例如中国人的姓名的识别、学术单位、研究领域信息用于姓名识别等。
姓名识别的结果如何检验?
Orcid数据([1]),ResearchGate数据,官方email数据,各个国家各个学术单位的统计数据,Norwegian模型[8]。
[9]提供了一些可供检验的数据。
机构识别问题
引用骨架识别和赋权
粗粒化
粗粒化就是把研究论文聚成类,可以是相当于概念或者主题的类,也可以是相当于学科或者学科方向的类。一般来说所聚出来的类有一定的层级结构。
为什么需要粗粒化。 [10]指出来为什么从评价的角度,粗粒化也就是论文聚类是重要的。
粗粒化怎么做?
[11]发展了网络科学聚类算法(CWTS聚类算法)来用于文章聚类。
[12]把自然语言处理用于文章聚类。
[13]发展了把引用和文本结合的聚类方法。
自然语言处理技术word2vec[14]、GloVe[15]、Doc2Vec[16]在词汇的基础上还考虑了词汇之间的语义联系,用来聚类。网络表示算法node2vec[17]也可以通过引用网络得到顶点的矢量表示。
粗粒化的结果怎么检验?
[18]对比了几种论文聚类的算法。
科学计量学的任务
科学领域及其相互关系
技术领域及其相互关系
科学-技术关系
[19]、[20]、[21]、[22]、 [23]、[24]、[25]利用专利引用学术论文的数据研究了科学和技术之间的关联。
科学-技术-经济相互关系
经济产业部门的相互关系
加上科学和技术到产品的联系
科学家活动的模式
科学出版的模式
评价指标和科研管理
[10]总结了关于影响因子的研究的现状、动机和未来方向。
教和学科学
科学计量学的思维方式和分析方法
科学计量学之科学思维和科学方法
网络科学的思想和技术
[26] 介绍了网络科学的基本精神,并把网络研究分成几个方面做了总结。 [27] 整理了用网络的思想和方法来研究科学学的工作。
关系为王
几何性,一切都是关系并且只有关系
直接和间接联系
一级近邻不需要网络分析,间接影响
新框架下的共现分析
作者-作者共现,共施引,共被引,作者-主题共现,主题-主题共现
统计分析
对排序指标的需求,均值,检验,百分比,h指数,领域归一化(需要网络分析)
[10]总结了关于影响因子的研究的现状、动机和未来方向。
作为分析技术的网络分析
主题分类,共施引,共被引,合作网络分析,Eigenfactor,IOfactor
典型方法用于典型问题
数据精炼问题的解决
粗粒化问题的解决
[18]对比了几种论文聚类的算法。
科学家活动模式分析
科学出版活动模式分析
评价指标和科研管理问题的解决
[10]总结了关于影响因子的研究的现状、动机和未来方向。 [28]把网络科学和PageRank算法用于期刊、作者、研究机构、论文影响力度量。
相互关系问题的分析
科学的教和学问题的分析
参考文献
- ↑ Harinarayana, N. S. (2015) Data sources and software tools for bibliometric studies.
- ↑ Sergey Parinov, Mikhail Kogalovsky,Semantic linkages in research information systems as a new data source for scientometric studies, Scientometrics 98(2), 927–943(2014).
- ↑ Staša Milojević, Accuracy of simple, initials-based methods for author name disambiguation, Journal of Informetrics 7, 767-773(2013). https://doi.org/10.1016/j.joi.2013.06.006 .
- ↑ Christian Schulz, Amin Mazloumian, Alexander M Petersen, Orion Penner and Dirk Helbing, Exploiting citation networks for large-scale author name disambiguation, EPJ Data Science 20143:11 https://doi.org/10.1140/epjds/s13688-014-0011-3 .
- ↑ Jinseok Kim and Jana Diesner, Distortive effects of initial‐based name disambiguation on measurements of large‐scale coauthorship networks, JASIST, 67, 1446-1461(2016). https://doi.org/10.1002/asi.23489 .
- ↑ Wei-Sheng Chin, Yong Zhuang, Yu-Chin Juan, Felix Wu, Hsiao-Yu Tung, Tong Yu, Jui-Pin Wang, Cheng-Xia Chang, Chun-Pai Yang, Wei-Cheng Chang, Kuan-Hao Huang, Tzu-Ming Kuo, Shan-Wei Lin, Young-San Lin, Yu-Chen Lu, Yu-Chuan Su, Cheng-Kuang Wei, Tu-Chun Yin, Chun-Liang Li, Ting-Wei Lin, Cheng-Hao Tsai, Shou-De Lin, Hsuan-Tien Lin, Chih-Jen Lin; Effective String Processing and Matching for Author Disambiguation http://jmlr.org/papers/v15/chin14a.html .
- ↑ Roberta Sinatra, Dashun Wang, Pierre Deville, Chaoming Song, Albert-László Barabási, Quantifying the evolution of individual scientific impact, Science 354(6312), aaf5239(2016), DOI: 10.1126/science.aaf5239 .
- ↑ Gunnar Sivertsen, Publication-Based Funding: The Norwegian Model, Research Assessment in the Humanities, 79-90(2016).
- ↑ Müller, MC., Reitz, F. & Roy, N. Data sets for author name disambiguation: an empirical analysis and a new resource, Scientometrics (2017) 111: 1467. https://doi.org/10.1007/s11192-017-2363-5 .
- ↑ 10.0 10.1 10.2 10.3 Waltman, Ludo, A review of the literature on citation impact indicators, JOURNAL OF INFORMETRICS, 10(2) 365-391(2016), DOI: 10.1016/j.joi.2016.02.007 .
- ↑ Waltman, L., & van Eck, N. J. (2012). A new methodology for constructing a publication-level classification system of science. Journal of the American Society for Information Science and Technology, 63(12), 2378–2392.
- ↑ Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77–84.
- ↑ Glänzel, W., & Thijs, B. (2017). Using hybrid methods and `core documents’ for the representation of clusters and topics: The astronomy dataset. In J. Gläser, A. Scharnhorst & W. Glänzel (Eds.), Same data—different results? Towards a comparative approach to the identification of thematic structures in science, Special Issue of Scientometrics. doi:10.1007/s11192-017-2301-6 .
- ↑ Mikolov, Tomas; et al. "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781.
- ↑ Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation.
- ↑ https://radimrehurek.com/gensim/models/doc2vec.html, https://deeplearning4j.org/docs/latest/deeplearning4j-nlp-doc2vec .
- ↑ node2vec: Scalable Feature Learning for Networks. A. Grover, J. Leskovec. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016.
- ↑ 18.0 18.1 Boyack, K. W., & Klavans, R. (2010). Co-citation analysis, bibliographic coupling, and direct citation: Which citation approach represents the research front most accurately? Journal of the American Society for Information Science and Technology, 61(12), 2389–2404.
- ↑ Narin F. Patent bibliometrics[J]. Scientometrics, 1994, 30(1):147-155.
- ↑ Narin F, Hamilton K S, Olivastro D. Linkage between agency-supported research and patented industrial technology[J]. Research Evaluation, 1995, 5(3):183-187.
- ↑ Narin F, Hamilton K S, Olivastro D. The increasing linkage between U.S. technology and public science[J]. Research Policy, 1997, 26(3):317-330.
- ↑ Narin F, Olivastro D. Linkage between patents and papers: An interim EPO/US comparison[J]. Scientometrics, 1998, 41(1):51-59.
- ↑ Narin F. Tracing the paths from basic research to economic impact[J]. F&M Scientist, 2012.
- ↑ Verbeek A, Debackere K, Luwel M, et al. Linking science to technology: Using bibliographic references in patents to build linkage schemes[J]. Scientometrics, 2002, 54(3):399-420.
- ↑ Li D., Azoulay P., Sampat B.N. The applied value of public investments in biomedical research[J]. Science, 2017, 356 78-81.
- ↑ 吴金闪,狄增如,从统计物理学看复杂网络研究,物理学进展,24(1),18-46(2004).
- ↑ An Zeng, Zhesi Shen, Jianlin Zhou, Jinshan Wu, Ying Fan, Yougui Wang, H Eugene Stanley. 2017. "The science of science: From the perspective of complex systems." PHYSICS REPORTS-REVIEW SECTION OF PHYSICS LETTERS, 714, 1-74 (2017).
- ↑ Carl T. Bergstrom, Jevin D. West and Marc A. Wiseman, The Eigenfactor™ Metrics, Journal of Neuroscience, 28 (45) 11433-11434(2008). DOI: https://doi.org/10.1523/JNEUROSCI.0003-08.2008 .
引用错误:在<references>
中以“GeneralIO”名字定义的<ref>
标签没有在先前的文字中使用。
本分类目前不含有任何页面或媒体文件。