分类:化学反应网络上的科学学

来自Big Physics

研究背景

在科学学上,我们的研究的整体目标是建立一个沟通各个领域的概念网络,然后用这个概念网络来描述科学的发展,来定位和评价每一项研究工作,来帮助教和学以及研究。这里有两个问题:概念网络的建立、有了概念网络以后如何用于这些下游任务。一定程度上,第一个任务是第二个任务的前置条件。但是,在某些领域,如果大概已经有了概念网络,例如汉字形音义网络、化学反应网络,则后续的任务可以先开展起来。当然,在Wikipedia的基础上,第一个任务也不再是遥遥无期的了。自然语言处理技术以及前人在把Wikipedia格式化方面的工作都可供参考。

在化学反应网络上,由于其巨大的商业价值(什么东西用什么过程来生产什么)和学术价值,已经有专门的机构整理了化学反应的数据。一般来说,这些数据包含:反应物、反应方程、论文、专利,有的数据库还包含反应物的物理性质(颜色、密度、形状、沸点、频谱测量结果等)。

因此,一定程度上,可以先用化学反应网络来当做概念网络的例子,来看展工作[1][2]

化学反应数据

  1. 这里有一个列表:http://www.organicworldwide.net/content/reaction-databases
  2. NIST Chemistry WebBook: https://webbook.nist.gov/chemistry/
  3. PubChem: https://pubchem.ncbi.nlm.nih.gov/
  4. Reaxys: https://www.reaxys.com
  5. SciFinder: https://scifinder.cas.org
  6. James Evans等人自己从PubMed论文数据的摘要里面整理出来了一个化学反应列表[1][2]

同时,化学反应网络还可以用来当做广义投入产出分析的研究对象。如果有供给和需求数据(整个社会的生产消费过程对每一种反应物的直接需求,直接供给),则还可以研究这些反应物的经济学。

研究问题

把每一项研究(论文、专利)定位到概念(反应物)或者概念间联系(反应)上之后,对于概念和概念之间的联系(概念网络和联系网络构成对偶网络,同时,联系本身也可以成为概念,例如数学定理其实是数学概念之间的联系),我们就得到了一个使用频率,就可以来回答概念和概念间联系的优化学习顺序问题;对于研究工作,我们可以实现更好的评价和推荐。例如,把概念的使用频率当做外界,在论文(可以包含专利)的引文网络上,我们可以计算每一篇论文的影响力。甚至,我们还可以在概念网络-论文引用网络这个联合的网络上做整体的广义投入产出分析。

同时,可以考虑在这个概念网络上做一个word2vec(不管是用node2vec,还是直接在邻接矩阵上用Glove),看看概念矢量。这样的概念矢量能够用于解决什么问题,还得继续思考。反过来,这个概念矢量的问题可以用来构建概念网络:用自然语言处理技术从文本中得到词的矢量表示,选择合适的学科概念,考虑两个内积比较大的概念矢量的差和另一个概念的相似性,来得到概念之间的联系。或者,概念网络的矢量表示和文本表示可以迭代来做相似性。在化学反应网络上,由于网络本身已经构建,我们可以用这样的方法来试试构建出来的网络是否合理。也就是,运用自然语言处理技术得到化学反应和反应物的矢量表示,进而得到化学反应和反应物网络,其中可以考虑用上面的文本表示矢量和网络表示矢量迭代的方式,然后看一看是否能够建立起来和已经建立的化学反应网络相似的网络。

另外,还可以考虑一个从文本训练出来化学反应物网络的有监督机器学习算法。

参考文献

  1. 1.0 1.1 Foster Jacob, Andrey Rzhetsky, James Evans. 2015. “Tradition and Innovation in Scientists’ Research Strategies”. American Sociological Review, 80:875-908, doi:10.1177/0003122415601618 http://sage.cnpereading.com/paragraph/article/10.1177/0003122415601618
  2. 2.0 2.1 Andrey Rzhetsky, Jacob G. Foster, Ian T. Foster, James A. Evans. 2015. “Choosing experiments to accelerate collective discovery”. PNAS, 112:14569–14574, doi:10.1073/pnas.1509757112 https://www.pnas.org/content/112/47/14569

本分类目前不含有任何页面或媒体文件。