分类:数据集
来自Big Physics
数据集
科学计量学方面的数据集,除了大型综合型论文题录数据库Web of Science 和 Scopus之外,我们还经常使用这些:
数据名称 | 数据描述 | 来源 |
---|---|---|
APS data(截止2013) | 包含题目、作者、单位、发表时间、引用、PACS码 | APS官方提供 |
APS author disambiguation(截至2009) | Roberta Sinatra提供的APS处理重名后的数据 | 下载 |
APS 数据和orcid交叉的数据 | 基于Dimensions数据(也可以直接用orcid数据,目前用的dimensions数据)得到的APS文章的作者中带有orcid的那些 | 下载 |
APS单位识别数据(截至2013) | 经MapAffil处理得到的单位数据,包含机构,城市,国家信息 | Vetle Torvik提供 |
Grid学术单位数据 | 包含学术单位的名称,经纬度,城市,州,国家 | Grid下载 |
USPTO美国专利商标局专利数据(截至2016) | 包含题目、专利分类号、申请者、单位、引用 | 下载 |
EPO专利局专利数据(截至2016) | 包含题目、专利分类号、申请者、单位、引用 | 下载 |
SIPO中国国家知识产权局专利数据(不同频率更新,没有所有数据合集下载) | 包含题目、专利分类号、申请者、单位、引用 | 下载 |
JPO日本特许厅专利数据(每月更新,没有所有数据合集下载) | 包含题目、专利分类号、申请者、单位、引用 | 下载 |
Medline/PubMed题录数据(截至2016) | 包含题目、作者、杂志、MeSH标注、部分包括引用信息 | 下载 |
Medline/PubMed全文数据(仅部分有全文,截至2016) | PMC(PubMed核心库)全文 | 下载 |
PubChem数据 | 包含化学反应物、反应、论文 | NIH PubChem网站 ftp下载 |
NIH基金数据 | 包含NIH各个基金项目的编号,类别,主申请人,关键词,受资助文章等信息 | 下载 |
SPIRES | 已经匹配好的NIH论文和基金数据库,Scientific Publication Information Retrieval & Evaluation System | SPIRES |
NSF基金数据 | 包含NSF各个基金项目的编号、类别、申请人、摘要、资助金额和起止年限等信息 | NSF download |
ORCID科学家简历数据 | 从 Datadryad.org可以获得科学家的受教育和工作经历数据 | Datadryad.org |
OpenCitations论文题录和引用数据 | 从 OpenCitations可以获得,目前还不全,全库可下载,有API | OpenCitations |
Crossref论文题录和引用数据 | 从 Crossref可以通过API获得,DOI注册机构 | Crossref |
专利-论文题录和引用数据 | 从 Lens可以通过网页界面批量获得 | Lens |
F1000生命科学论文评价数据 | F1000从领域科学家获得了对领域重要文章的评价,可以联系F1000获得 | F1000 |
历史学博士学位论文(截至2015) | 包含题目、作者、导师、单位 | 爬取于国家图书馆学位论文库 |
历史学研究期刊论文 | 包含题目、作者、单位、摘要 | 知网 |
dblp数据 | 包含题目、作者、杂志、部分包括引用信息 | 下载 |
springer-nature数据 | 包含题目、作者、杂志、部分包括引用信息 | springer-nature 提供 |
Aminer Citation Network Dataset | 经过Aminer清洗好的文献引用数据,包含题目、作者、杂志、部分包括引用信息 | aminer提供 |
城市列表 | 包含城市、国家名称,经纬度位置,人口数等 | Geoname提供 |
机构列表(包含城市) | 包含各类机构,及机构位置,机构关系,机构类型等 有API可用 | GRID提供 |
医学概念网络(Unified Medical Language System® (UMLS®),本体论形式的) | 包含和MeSH相对应的概念和概念之间的关系,主要层次性关系 | 美国国家医学图书馆提供 |
数学论文题录数据 | 包含标题、作者、期刊和MSC标注 | Mathematical Reviews® (MathSciNet®)提供 |
经济学论文题录数据 | 包含标题、作者、期刊和JEL标注 | 美国经济学学会EconLit提供 |
Wikidata | 把Wikipedia页面结构化得来的Ontology(概念网络,各种概念已经进过识别和结构化,例如学校的地址和经纬度) | Wikidata |
YAGO | 把Wikipedia页面结构化得来的计算机科学的Ontology(概念网络) | YAGO |
DBpedia | 把Wikipedia页面结构化,并且和其他一些Ontology,例如Wordnet得来的Ontology(概念网络) | DBpedia |
WordNet | 日常用语的Ontology(概念网络,主要上下级关系) | WordNet |
Influential references dataset | 作者自己标注的引文列表中对工作有直接实际影响的引文 | Influential references dataset |
Astro Data Set | 从Web of Science输出的天文学论文的数据,用来发展和比较文献主题识别算法 | TOPIC EXTRACTION CHALLENGE |
综述论文识别任务训练数据 | 合计5万篇综述论文和普通论文的标题摘要 | 文件:Review5w1.zip 文件:Review5w2.zip 文件:Review5w3.zip 文件:Review5w4.zip 文件:Review5w5.zip |
NBA投篮数据 | 从Kaggle“NBA shot logs”获得的NBA投篮时间序列数据:每个投篮的时间点、投者和所属球队、最近的防守者和所属球队 | 文件:NBA14-15.zip,文件:NBA16-17.zip |
NBA以及其他运动数据 | 从 MySportsFeeds可以获得投篮时间序列数据以及更完整的各种美国运动联赛的数据 | MySportsFeeds |
产品生产数据 | 从 http://www.madehow.com/“How Prroducts Are Made“网站可以获得大量产品的有什么东西生产的数据,不过没有经过处理,不是一个结构数据 | http://www.madehow.com/ |
libgen数据 | 从 http://libgen.rs/网站可以获得书籍的原始数据和题录数据 | 在本地硬盘也有备份 /dev/lvm_data/vg_data /data |
libgen数据 | 从 http://libgen.rs/网站可以获得论文的原始数据和题录数据 | 在本地硬盘也有备份 /dev/scihub/scihub /scihub |
本分类目前不含有任何页面或媒体文件。