分类:方程识别eq2vec

来自Big Physics
Jinshanw讨论 | 贡献2019年6月19日 (三) 10:06的版本 →‎研究背景


研究背景

一篇文章经常会有一些方程,展示了文章的主要技术或者主要研究问题。但是,就算相同的方程,其所用的变量符号可能并不是完全一样。问题一,我们能不能把这样的实际上相同,但是看起来不同的方程识别出来?以及反过来,两个看起来很像的方程,其实不同。假设解决了这个问题,我们可以更好地建立文章之间的依赖关系,尤其是概念层面的依赖关系。另外,假设解决了这个问题,没准我们还可以做一个方程检索器,把用相同方程的文章都列出来。

怎么做?

可能的方法

首先,假设所有的公式都已经标准化成为latex。如果是图片,假设已经通过类似mathpix[1]的方法得到latex。

接着,得到latex公式以后,应用word-level或者character-level的word2vec(或者其他矢量化方法),得到每一个数学符号的矢量,以及整个公式的矢量。然后,通过聚类或者直接相似性检验来做公式的认同。

最后,得到公式矢量以及结合词汇预训练矢量之后,再来做全文的矢量分析,得到这个方程的名字以及最相关的词。

参考文献

引用错误:在<references>中以“Zhang:atom2vec”名字定义的<ref>标签没有在先前的文字中使用。

子分类

本分类只有以下子分类。