分类:方程识别eq2vec

来自Big Physics
Jinshanw讨论 | 贡献2019年7月9日 (二) 10:11的版本


研究背景

一篇文章经常会有一些方程,展示了文章的主要技术或者主要研究问题。但是,就算相同的方程,其所用的变量符号可能并不是完全一样。问题一,我们能不能把这样的实际上相同,但是看起来不同的方程识别出来?以及反过来,两个看起来很像的方程,其实不同。假设解决了这个问题,我们可以更好地建立文章之间的依赖关系,尤其是概念层面的依赖关系。另外,假设解决了这个问题,没准我们还可以做一个方程检索器,把用相同方程的文章都列出来。

怎么做?

可能的方法

首先,假设所有的公式都已经标准化成为latex。如果是图片,假设已经通过类似mathpix[1]的方法得到latex。latex公式可能需要标准化,例如加入latex符号之间的空格、多用{}之类的来对单元分割等。

接着,得到latex公式以后,应用word-level或者character-level的word2vec(或者其他矢量化方法),得到每一个数学符号的矢量,以及整个公式的矢量。然后,通过聚类或者直接相似性检验来做公式的认同。具体可以参考atom2vec方法[2]引用错误:没有找到与</ref>对应的<ref>标签 [2] [3] </references>

  1. 引用错误:无效<ref>标签;未给name属性为mathpix的引用提供文字
  2. 2.0 2.1 Quan Zhou, Peizhe Tang, Shenxiu Liu, Jinbo Pan, Qimin Yan, and Shou-Cheng Zhang, Learning atoms for materials discovery, PNAS 115 (28) E6411-E6417(2018). https://doi.org/10.1073/pnas.1801181115
  3. Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder & Anubhav Jain,Unsupervised word embeddings capture latent knowledge from materials science literature,Nature 571, 95–98 (2019).

子分类

本分类只有以下子分类。