“分类:方程识别eq2vec”的版本间的差异

2022年3月15日 (二) 04:39的最新版本

研究背景

一篇文章经常会有一些方程，展示了文章的主要技术或者主要研究问题。但是，就算相同的方程，其所用的变量符号可能并不是完全一样。问题一，我们能不能把这样的实际上相同，但是看起来不同的方程识别出来？以及反过来，两个看起来很像的方程，其实不同。假设解决了这个问题，我们可以更好地建立文章之间的依赖关系，尤其是概念层面的依赖关系。另外，假设解决了这个问题，没准我们还可以做一个方程检索器，把用相同方程的文章都列出来。

怎么做？

可能的方法

首先，假设所有的公式都已经标准化成为latex。如果是图片，假设已经通过类似mathpix^[1]的方法得到latex。latex公式可能需要标准化，例如加入latex符号之间的空格、多用{}之类的来对单元分割等。

接着，得到latex公式以后，应用word-level或者character-level的word2vec(或者其他矢量化方法)，得到每一个数学符号的矢量，以及整个公式的矢量。然后，通过聚类或者直接相似性检验来做公式的认同。具体可以参考atom2vec方法^[2]^[3] 。

最后，得到公式矢量以及结合词汇预训练矢量之后，再来做全文的矢量分析，得到这个方程的名字以及最相关的词。

解决了这个问题，由于方程往往代表了一种方法或者理论，就可以用来研究这些方法或者理论的提出发展和扩散了。

在具体算法上，可以采用纯latex，以latex符号为单位；采用纯latex，以字母为单位；采用latex和图片的结合，以latex符号为单位；采用latex和图片的结合，以字母为单位。其次，除了latex符号或者字母矢量，还需要得到整个方程的矢量。

目前我们已经拿到arxiv上文章的html格式数据^[4]。

AllenAI有一系列的方法和结果方面的研究工作正在涌现，非常值得关注^[5]。

拓展：化学反应物和反应式的识别

类似地，我们可以研究化学反应物和反应式的识别。例如通过反应式得到反应物（以及官能团）的矢量表示，然后看看是否具有类似性质的反应物会聚成同一团，甚至看看能否用这些矢量来解决化学学科自身的某个研究问题。例如，通过全文和反应式得到反应式的矢量表示以及名称之后，除了给反应式分类之外，还可以讨论是否可以更准确地给论文做化学反应网络的标注。还可以用文本加上化学反应式的训练来预测一部分化学式的性质，甚至在什么条件下发生化学反应。

目前我们已经和一个化学反应数据库建立合作研究关系。

数据

我们可以用arxiv的全文^[6] ^[4]，或者sci-hub的pdf全文识别出来xml等。化学反应数据不知道是否可以bulk获取reaxy、scifinder等数据。

参考文献

↑ https://mathpix.com
↑ Quan Zhou, Peizhe Tang, Shenxiu Liu, Jinbo Pan, Qimin Yan, and Shou-Cheng Zhang, Learning atoms for materials discovery, PNAS 115 (28) E6411-E6417(2018). https://doi.org/10.1073/pnas.1801181115
↑ Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder & Anubhav Jain,Unsupervised word embeddings capture latent knowledge from materials science literature,Nature 571, 95-98 (2019).
↑ ^4.0 ^4.1 arxiv 词矢量、html5格式原文网站SIGMathLing 需要申请一下成为会员才能使用他们的数据。
↑ https://github.com/allenai https://research.semanticscholar.org/projects/understanding-and-extracting-information
↑ arxiv full data on Kaggle

子分类

本分类只有以下子分类。

方

► Extracting Scientific Figures with Distantly Supervised Neural Networks‎ (空)

[mathpix-1] ttps://mathpix.com

[Zhang:atom2vec-2] Quan Zhou, Peizhe Tang, Shenxiu Liu, Jinbo Pan, Qimin Yan, and Shou-Cheng Zhang, Learning atoms for materials discovery, PNAS 115 (28) E6411-E6417(2018). https://doi.org/10.1073/pnas.1801181115

[Tshitoyan:material2vec-3] Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder & Anubhav Jain,Unsupervised word embeddings capture latent knowledge from materials science literature,Nature 571, 95-98 (2019).

[SIGMathLing-4] 4.0 ^4.1 arxiv 词矢量、html5格式原文网站SIGMathLing 需要申请一下成为会员才能使用他们的数据。

[AllenAI-5] ttps://github.com/allenai https://research.semanticscholar.org/projects/understanding-and-extracting-information

[arxivkaggle-6] rxiv full data on Kaggle

[1]

[2]

[3]

[4]

[5]

[6]

@@ 第1行： / 第1行： @@
+[[Category:科学学]]
+[[分类:基于内容的科学学]]
-[[Category:科学学]]
 ==研究背景==
@@ 第20行： / 第21行： @@
 在具体算法上，可以采用纯latex，以latex符号为单位；采用纯latex，以字母为单位；采用latex和图片的结合，以latex符号为单位；采用latex和图片的结合，以字母为单位。其次，除了latex符号或者字母矢量，还需要得到整个方程的矢量。
-目前我们已经拿到arxiv上文章的html格式数据。
+目前我们已经拿到arxiv上文章的html格式数据<ref name="SIGMathLing"/>。
+AllenAI有一系列的方法和结果方面的研究工作正在涌现，非常值得关注<ref name="AllenAI"/>。
 ==拓展：化学反应物和反应式的识别==
 类似地，我们可以研究化学反应物和反应式的识别。例如通过反应式得到反应物（以及官能团）的矢量表示，然后看看是否具有类似性质的反应物会聚成同一团，甚至看看能否用这些矢量来解决化学学科自身的某个研究问题。例如，通过全文和反应式得到反应式的矢量表示以及名称之后，除了给反应式分类之外，还可以讨论是否可以更准确地给论文做化学反应网络的标注。还可以用文本加上化学反应式的训练来预测一部分化学式的性质，甚至在什么条件下发生化学反应。
+目前我们已经和一个化学反应数据库建立合作研究关系。
+==数据==
+我们可以用arxiv的全文<ref name="arxivkaggle"/> <ref name="SIGMathLing"/>，或者sci-hub的pdf全文识别出来xml等。化学反应数据不知道是否可以bulk获取reaxy、scifinder等数据。
 ==参考文献==
@@ 第30行： / 第39行： @@
 <ref name="Zhang:atom2vec"> Quan Zhou, Peizhe Tang, Shenxiu Liu, Jinbo Pan, Qimin Yan, and Shou-Cheng Zhang, Learning atoms for materials discovery, PNAS 115 (28) E6411-E6417(2018). https://doi.org/10.1073/pnas.1801181115 </ref>
 <ref name="Tshitoyan:material2vec"> Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder & Anubhav Jain,Unsupervised word embeddings capture latent knowledge from materials science literature,Nature 571, 95-98 (2019).</ref>
+<ref name="arxivkaggle"> [https://www.kaggle.com/Cornell-University/arxiv arxiv full data on Kaggle] </ref>
+<ref name="SIGMathLing"> [https://sigmathling.kwarc.info/ arxiv 词矢量、html5格式原文网站SIGMathLing] 需要申请一下成为会员才能使用他们的数据。</ref>
+<ref name="AllenAI"> https://github.com/allenai https://research.semanticscholar.org/projects/understanding-and-extracting-information </ref>
 </references>

匿名

搜索

“分类:方程识别eq2vec”的版本间的差异

名字空间

更多

页面选项

2022年3月15日 (二) 04:39的最新版本

目录

研究背景

可能的方法

拓展：化学反应物和反应式的识别

数据

参考文献

子分类

方

导航

导航

Wiki工具

Wiki工具

匿名

搜索

“分类:方程识别eq2vec”的版本间的差异

2022年3月15日 (二) 04:39的最新版本

研究背景

可能的方法

拓展：化学反应物和反应式的识别

数据

参考文献

子分类

方

导航

Wiki工具

页面工具

分类