分类:方程识别eq2vec

来自Big Physics
Jinshanw讨论 | 贡献2019年7月9日 (二) 10:28的版本 →‎参考文献


研究背景

一篇文章经常会有一些方程,展示了文章的主要技术或者主要研究问题。但是,就算相同的方程,其所用的变量符号可能并不是完全一样。问题一,我们能不能把这样的实际上相同,但是看起来不同的方程识别出来?以及反过来,两个看起来很像的方程,其实不同。假设解决了这个问题,我们可以更好地建立文章之间的依赖关系,尤其是概念层面的依赖关系。另外,假设解决了这个问题,没准我们还可以做一个方程检索器,把用相同方程的文章都列出来。

怎么做?

可能的方法

首先,假设所有的公式都已经标准化成为latex。如果是图片,假设已经通过类似mathpix[1]的方法得到latex。latex公式可能需要标准化,例如加入latex符号之间的空格、多用{}之类的来对单元分割等。

接着,得到latex公式以后,应用word-level或者character-level的word2vec(或者其他矢量化方法),得到每一个数学符号的矢量,以及整个公式的矢量。然后,通过聚类或者直接相似性检验来做公式的认同。具体可以参考atom2vec方法[2][3]

最后,得到公式矢量以及结合词汇预训练矢量之后,再来做全文的矢量分析,得到这个方程的名字以及最相关的词。

解决了这个问题,由于方程往往代表了一种方法或者理论,就可以用来研究这些方法或者理论的提出发展和扩散了。

在具体算法上,可以采用纯latex,以latex符号为单位;采用纯latex,以字母为单位;采用latex和图片的结合,以latex符号为单位;采用latex和图片的结合,以字母为单位。其次,除了latex符号或者字母矢量,还需要得到整个方程的矢量。

拓展:化学反应物和反应式的识别

类似地,我们可以研究化学反应物和反应式的识别。例如通过反应式得到反应物(以及官能团)的矢量表示,然后看看是否具有类似性质的反应物会聚成同一团,甚至看看能否用这些矢量来解决化学学科自身的某个研究问题。例如,通过全文和反应式得到反应式的矢量表示以及名称之后,除了给反应式分类之外,还可以讨论是否可以更准确地给论文做化学反应网络的标注。还可以用文本加上化学反应式的训练来预测一部分化学式的性质,甚至在什么条件下发生化学反应。

参考文献

  1. https://mathpix.com
  2. Quan Zhou, Peizhe Tang, Shenxiu Liu, Jinbo Pan, Qimin Yan, and Shou-Cheng Zhang, Learning atoms for materials discovery, PNAS 115 (28) E6411-E6417(2018). https://doi.org/10.1073/pnas.1801181115
  3. Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder & Anubhav Jain,Unsupervised word embeddings capture latent knowledge from materials science literature,Nature 571, 95-98 (2019).

子分类

本分类只有以下子分类。