“分类:方程识别eq2vec”的版本间的差异

来自Big Physics
 
(未显示同一用户的9个中间版本)
第1行: 第1行:
 +
[[Category:科学学]]
 +
[[分类:基于内容的科学学]]
  
[[Category:科学学]]
 
  
 
==研究背景==
 
==研究背景==
第20行: 第21行:
 
在具体算法上,可以采用纯latex,以latex符号为单位;采用纯latex,以字母为单位;采用latex和图片的结合,以latex符号为单位;采用latex和图片的结合,以字母为单位。其次,除了latex符号或者字母矢量,还需要得到整个方程的矢量。
 
在具体算法上,可以采用纯latex,以latex符号为单位;采用纯latex,以字母为单位;采用latex和图片的结合,以latex符号为单位;采用latex和图片的结合,以字母为单位。其次,除了latex符号或者字母矢量,还需要得到整个方程的矢量。
  
目前我们已经拿到arxiv上文章的html格式数据。
+
目前我们已经拿到arxiv上文章的html格式数据<ref name="SIGMathLing"/>。
 +
 
 +
AllenAI有一系列的方法和结果方面的研究工作正在涌现,非常值得关注<ref name="AllenAI"/>。
  
 
==拓展:化学反应物和反应式的识别==
 
==拓展:化学反应物和反应式的识别==
 
类似地,我们可以研究化学反应物和反应式的识别。例如通过反应式得到反应物(以及官能团)的矢量表示,然后看看是否具有类似性质的反应物会聚成同一团,甚至看看能否用这些矢量来解决化学学科自身的某个研究问题。例如,通过全文和反应式得到反应式的矢量表示以及名称之后,除了给反应式分类之外,还可以讨论是否可以更准确地给论文做化学反应网络的标注。还可以用文本加上化学反应式的训练来预测一部分化学式的性质,甚至在什么条件下发生化学反应。
 
类似地,我们可以研究化学反应物和反应式的识别。例如通过反应式得到反应物(以及官能团)的矢量表示,然后看看是否具有类似性质的反应物会聚成同一团,甚至看看能否用这些矢量来解决化学学科自身的某个研究问题。例如,通过全文和反应式得到反应式的矢量表示以及名称之后,除了给反应式分类之外,还可以讨论是否可以更准确地给论文做化学反应网络的标注。还可以用文本加上化学反应式的训练来预测一部分化学式的性质,甚至在什么条件下发生化学反应。
 +
 +
目前我们已经和一个化学反应数据库建立合作研究关系。
 +
 +
==数据==
 +
 +
我们可以用arxiv的全文<ref name="arxivkaggle"/> <ref name="SIGMathLing"/>,或者sci-hub的pdf全文识别出来xml等。化学反应数据不知道是否可以bulk获取reaxy、scifinder等数据。
  
 
==参考文献==
 
==参考文献==
第30行: 第39行:
 
<ref name="Zhang:atom2vec"> Quan Zhou, Peizhe Tang, Shenxiu Liu, Jinbo Pan, Qimin Yan, and Shou-Cheng Zhang, Learning atoms for materials discovery, PNAS 115 (28) E6411-E6417(2018). https://doi.org/10.1073/pnas.1801181115 </ref>
 
<ref name="Zhang:atom2vec"> Quan Zhou, Peizhe Tang, Shenxiu Liu, Jinbo Pan, Qimin Yan, and Shou-Cheng Zhang, Learning atoms for materials discovery, PNAS 115 (28) E6411-E6417(2018). https://doi.org/10.1073/pnas.1801181115 </ref>
 
<ref name="Tshitoyan:material2vec"> Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder & Anubhav Jain,Unsupervised word embeddings capture latent knowledge from materials science literature,Nature 571, 95-98 (2019).</ref>
 
<ref name="Tshitoyan:material2vec"> Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder & Anubhav Jain,Unsupervised word embeddings capture latent knowledge from materials science literature,Nature 571, 95-98 (2019).</ref>
 +
<ref name="arxivkaggle"> [https://www.kaggle.com/Cornell-University/arxiv arxiv full data on Kaggle] </ref>
 +
<ref name="SIGMathLing"> [https://sigmathling.kwarc.info/ arxiv 词矢量、html5格式原文网站SIGMathLing] 需要申请一下成为会员才能使用他们的数据。</ref>
 +
<ref name="AllenAI"> https://github.com/allenai https://research.semanticscholar.org/projects/understanding-and-extracting-information </ref>
 
</references>
 
</references>

2022年3月15日 (二) 04:39的最新版本


研究背景

一篇文章经常会有一些方程,展示了文章的主要技术或者主要研究问题。但是,就算相同的方程,其所用的变量符号可能并不是完全一样。问题一,我们能不能把这样的实际上相同,但是看起来不同的方程识别出来?以及反过来,两个看起来很像的方程,其实不同。假设解决了这个问题,我们可以更好地建立文章之间的依赖关系,尤其是概念层面的依赖关系。另外,假设解决了这个问题,没准我们还可以做一个方程检索器,把用相同方程的文章都列出来。

怎么做?

可能的方法

首先,假设所有的公式都已经标准化成为latex。如果是图片,假设已经通过类似mathpix[1]的方法得到latex。latex公式可能需要标准化,例如加入latex符号之间的空格、多用{}之类的来对单元分割等。

接着,得到latex公式以后,应用word-level或者character-level的word2vec(或者其他矢量化方法),得到每一个数学符号的矢量,以及整个公式的矢量。然后,通过聚类或者直接相似性检验来做公式的认同。具体可以参考atom2vec方法[2][3]

最后,得到公式矢量以及结合词汇预训练矢量之后,再来做全文的矢量分析,得到这个方程的名字以及最相关的词。

解决了这个问题,由于方程往往代表了一种方法或者理论,就可以用来研究这些方法或者理论的提出发展和扩散了。

在具体算法上,可以采用纯latex,以latex符号为单位;采用纯latex,以字母为单位;采用latex和图片的结合,以latex符号为单位;采用latex和图片的结合,以字母为单位。其次,除了latex符号或者字母矢量,还需要得到整个方程的矢量。

目前我们已经拿到arxiv上文章的html格式数据[4]

AllenAI有一系列的方法和结果方面的研究工作正在涌现,非常值得关注[5]

拓展:化学反应物和反应式的识别

类似地,我们可以研究化学反应物和反应式的识别。例如通过反应式得到反应物(以及官能团)的矢量表示,然后看看是否具有类似性质的反应物会聚成同一团,甚至看看能否用这些矢量来解决化学学科自身的某个研究问题。例如,通过全文和反应式得到反应式的矢量表示以及名称之后,除了给反应式分类之外,还可以讨论是否可以更准确地给论文做化学反应网络的标注。还可以用文本加上化学反应式的训练来预测一部分化学式的性质,甚至在什么条件下发生化学反应。

目前我们已经和一个化学反应数据库建立合作研究关系。

数据

我们可以用arxiv的全文[6] [4],或者sci-hub的pdf全文识别出来xml等。化学反应数据不知道是否可以bulk获取reaxy、scifinder等数据。

参考文献

  1. https://mathpix.com
  2. Quan Zhou, Peizhe Tang, Shenxiu Liu, Jinbo Pan, Qimin Yan, and Shou-Cheng Zhang, Learning atoms for materials discovery, PNAS 115 (28) E6411-E6417(2018). https://doi.org/10.1073/pnas.1801181115
  3. Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder & Anubhav Jain,Unsupervised word embeddings capture latent knowledge from materials science literature,Nature 571, 95-98 (2019).
  4. 4.0 4.1 arxiv 词矢量、html5格式原文网站SIGMathLing 需要申请一下成为会员才能使用他们的数据。
  5. https://github.com/allenai https://research.semanticscholar.org/projects/understanding-and-extracting-information
  6. arxiv full data on Kaggle

子分类

本分类只有以下子分类。