分类:数据集

来自Big Physics
Jinshanw讨论 | 贡献2022年6月3日 (五) 19:23的版本

数据集

科学计量学方面的数据集,除了大型综合型论文题录数据库Web of ScienceScopus之外,我们还经常使用这些:

数据名称 数据描述 来源
APS data(截止2013) 包含题目、作者、单位、发表时间、引用、PACS码 APS官方提供
APS author disambiguation(截至2009) Roberta Sinatra提供的APS处理重名后的数据 下载
APS 数据和orcid交叉的数据 基于Dimensions数据(也可以直接用orcid数据,目前用的dimensions数据)得到的APS文章的作者中带有orcid的那些 下载
APS单位识别数据(截至2013) MapAffil处理得到的单位数据,包含机构,城市,国家信息 Vetle Torvik提供
Grid学术单位数据 包含学术单位的名称,经纬度,城市,州,国家 Grid下载
USPTO美国专利商标局专利数据(截至2016) 包含题目、专利分类号、申请者、单位、引用 下载
EPO专利局专利数据(截至2016) 包含题目、专利分类号、申请者、单位、引用 下载
SIPO中国国家知识产权局专利数据(不同频率更新,没有所有数据合集下载) 包含题目、专利分类号、申请者、单位、引用 下载
JPO日本特许厅专利数据(每月更新,没有所有数据合集下载) 包含题目、专利分类号、申请者、单位、引用 下载
Medline/PubMed题录数据(截至2016) 包含题目、作者、杂志、MeSH标注、部分包括引用信息 下载
Medline/PubMed全文数据(仅部分有全文,截至2016) PMC(PubMed核心库)全文 下载
PubChem数据 包含化学反应物、反应、论文 NIH PubChem网站 ftp下载
NIH基金数据 包含NIH各个基金项目的编号,类别,主申请人,关键词,受资助文章等信息 下载
SPIRES 已经匹配好的NIH论文和基金数据库,Scientific Publication Information Retrieval & Evaluation System SPIRES
NSF基金数据 包含NSF各个基金项目的编号、类别、申请人、摘要、资助金额和起止年限等信息 NSF download
ORCID科学家简历数据 Datadryad.org可以获得科学家的受教育和工作经历数据 Datadryad.org
OpenCitations论文题录和引用数据 OpenCitations可以获得,目前还不全,全库可下载,有API OpenCitations
Crossref论文题录和引用数据 Crossref可以通过API获得,DOI注册机构 Crossref
专利-论文题录和引用数据 Lens可以通过网页界面批量获得 Lens
F1000生命科学论文评价数据 F1000从领域科学家获得了对领域重要文章的评价,可以联系F1000获得 F1000
历史学博士学位论文(截至2015) 包含题目、作者、导师、单位 爬取于国家图书馆学位论文库
历史学研究期刊论文 包含题目、作者、单位、摘要 知网
dblp数据 包含题目、作者、杂志、部分包括引用信息 下载
springer-nature数据 包含题目、作者、杂志、部分包括引用信息 springer-nature 提供
Aminer Citation Network Dataset 经过Aminer清洗好的文献引用数据,包含题目、作者、杂志、部分包括引用信息 aminer提供
城市列表 包含城市、国家名称,经纬度位置,人口数等 Geoname提供
机构列表(包含城市) 包含各类机构,及机构位置,机构关系,机构类型等 有API可用 GRID提供
医学概念网络(Unified Medical Language System® (UMLS®),本体论形式的) 包含和MeSH相对应的概念和概念之间的关系,主要层次性关系 美国国家医学图书馆提供
数学论文题录数据 包含标题、作者、期刊和MSC标注 Mathematical Reviews® (MathSciNet®)提供
经济学论文题录数据 包含标题、作者、期刊和JEL标注 美国经济学学会EconLit提供
Wikidata 把Wikipedia页面结构化得来的Ontology(概念网络,各种概念已经进过识别和结构化,例如学校的地址和经纬度) Wikidata
YAGO 把Wikipedia页面结构化得来的计算机科学的Ontology(概念网络) YAGO
DBpedia 把Wikipedia页面结构化,并且和其他一些Ontology,例如Wordnet得来的Ontology(概念网络) DBpedia
WordNet 日常用语的Ontology(概念网络,主要上下级关系) WordNet
Influential references dataset 作者自己标注的引文列表中对工作有直接实际影响的引文 Influential references dataset
Astro Data Set 从Web of Science输出的天文学论文的数据,用来发展和比较文献主题识别算法 TOPIC EXTRACTION CHALLENGE
综述论文识别任务训练数据 合计5万篇综述论文和普通论文的标题摘要 文件:Review5w1.zip 文件:Review5w2.zip 文件:Review5w3.zip 文件:Review5w4.zip 文件:Review5w5.zip
NBA投篮数据 从Kaggle“NBA shot logs”获得的NBA投篮时间序列数据:每个投篮的时间点、投者和所属球队、最近的防守者和所属球队 文件:NBA14-15.zip文件:NBA16-17.zip
NBA以及其他运动数据 MySportsFeeds可以获得投篮时间序列数据以及更完整的各种美国运动联赛的数据 MySportsFeeds
产品生产数据 http://www.madehow.com/“How Prroducts Are Made“网站可以获得大量产品的有什么东西生产的数据,不过没有经过处理,不是一个结构数据 http://www.madehow.com/
libgen数据 http://libgen.rs/网站可以获得书籍的原始数据和题录数据 在本地硬盘也有备份 /dev/lvm_data/vg_data /data


libgen数据 http://libgen.rs/网站可以获得论文的原始数据和题录数据 在本地硬盘也有备份 /dev/scihub/scihub /scihub

本分类目前不含有任何页面或媒体文件。