分类:数据集

来自Big Physics
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.

数据集

科学计量学方面的数据集,除了大型综合型论文题录数据库Web of ScienceScopus之外,我们还经常使用这些:

数据名称 数据描述 来源
APS data(截止2013) 包含题目、作者、单位、发表时间、引用、PACS码 APS官方提供
APS author disambiguation(截至2009) Roberta Sinatra提供的APS处理重名后的数据 下载
APS 数据和orcid交叉的数据 基于Dimensions数据(也可以直接用orcid数据,目前用的dimensions数据)得到的APS文章的作者中带有orcid的那些 下载
APS单位识别数据(截至2013) MapAffil处理得到的单位数据,包含机构,城市,国家信息 Vetle Torvik提供
Grid学术单位数据 包含学术单位的名称,经纬度,城市,州,国家 Grid下载
USPTO美国专利商标局专利数据(截至2016) 包含题目、专利分类号、申请者、单位、引用 下载
EPO专利局专利数据(截至2016) 包含题目、专利分类号、申请者、单位、引用 下载
SIPO中国国家知识产权局专利数据(不同频率更新,没有所有数据合集下载) 包含题目、专利分类号、申请者、单位、引用 下载
JPO日本特许厅专利数据(每月更新,没有所有数据合集下载) 包含题目、专利分类号、申请者、单位、引用 下载
Medline/PubMed题录数据(截至2016) 包含题目、作者、杂志、MeSH标注、部分包括引用信息 下载
Medline/PubMed全文数据(仅部分有全文,截至2016) PMC(PubMed核心库)全文 下载
PubChem数据 包含化学反应物、反应、论文 NIH PubChem网站 ftp下载
NIH基金数据 包含NIH各个基金项目的编号,类别,主申请人,关键词,受资助文章等信息 下载
SPIRES 已经匹配好的NIH论文和基金数据库,Scientific Publication Information Retrieval & Evaluation System SPIRES
NSF基金数据 包含NSF各个基金项目的编号、类别、申请人、摘要、资助金额和起止年限等信息 NSF download
ORCID科学家简历数据 Datadryad.org可以获得科学家的受教育和工作经历数据 Datadryad.org
OpenCitations论文题录和引用数据 OpenCitations可以获得,目前还不全,全库可下载,有API OpenCitations
Crossref论文题录和引用数据 Crossref可以通过API获得,DOI注册机构 Crossref
专利-论文题录和引用数据 Lens可以通过网页界面批量获得 Lens
F1000生命科学论文评价数据 F1000从领域科学家获得了对领域重要文章的评价,可以联系F1000获得 F1000
历史学博士学位论文(截至2015) 包含题目、作者、导师、单位 爬取于国家图书馆学位论文库
历史学研究期刊论文 包含题目、作者、单位、摘要 知网
dblp数据 包含题目、作者、杂志、部分包括引用信息 下载
springer-nature数据 包含题目、作者、杂志、部分包括引用信息 springer-nature 提供
Aminer Citation Network Dataset 经过Aminer清洗好的文献引用数据,包含题目、作者、杂志、部分包括引用信息 aminer提供
城市列表 包含城市、国家名称,经纬度位置,人口数等 Geoname提供
机构列表(包含城市) 包含各类机构,及机构位置,机构关系,机构类型等 有API可用 GRID提供
医学概念网络(Unified Medical Language System® (UMLS®),本体论形式的) 包含和MeSH相对应的概念和概念之间的关系,主要层次性关系 美国国家医学图书馆提供
数学论文题录数据 包含标题、作者、期刊和MSC标注 Mathematical Reviews® (MathSciNet®)提供
经济学论文题录数据 包含标题、作者、期刊和JEL标注 美国经济学学会EconLit提供
Wikidata 把Wikipedia页面结构化得来的Ontology(概念网络,各种概念已经进过识别和结构化,例如学校的地址和经纬度) Wikidata
YAGO 把Wikipedia页面结构化得来的计算机科学的Ontology(概念网络) YAGO
DBpedia 把Wikipedia页面结构化,并且和其他一些Ontology,例如Wordnet得来的Ontology(概念网络) DBpedia
WordNet 日常用语的Ontology(概念网络,主要上下级关系) WordNet
Influential references dataset 作者自己标注的引文列表中对工作有直接实际影响的引文 Influential references dataset
Astro Data Set 从Web of Science输出的天文学论文的数据,用来发展和比较文献主题识别算法 TOPIC EXTRACTION CHALLENGE
综述论文识别任务训练数据 合计5万篇综述论文和普通论文的标题摘要 文件:Review5w1.zip 文件:Review5w2.zip 文件:Review5w3.zip 文件:Review5w4.zip 文件:Review5w5.zip
NBA投篮数据 从Kaggle“NBA shot logs”获得的NBA投篮时间序列数据:每个投篮的时间点、投者和所属球队、最近的防守者和所属球队 文件:NBA14-15.zip文件:NBA16-17.zip
NBA以及其他运动数据 MySportsFeeds可以获得投篮时间序列数据以及更完整的各种美国运动联赛的数据 MySportsFeeds
产品生产数据 http://www.madehow.com/“How Prroducts Are Made“网站可以获得大量产品的有什么东西生产的数据,不过没有经过处理,不是一个结构数据 http://www.madehow.com/
libgen数据 http://libgen.rs/网站可以获得书籍的原始数据和题录数据 在本地硬盘也有备份 /dev/lvm_data/vg_data /data
libgen数据 http://libgen.rs/网站可以获得论文的原始数据和题录数据 在本地硬盘也有备份 /dev/scihub/scihub /scihub

本分类目前不含有任何页面或媒体文件。