分类:生产关系挖掘
研究背景
在产品网络中研究产品对整个生产系统的影响力(重要性),或者一个产品对另一个产品的重要性,需要产品生产关系数据,以及相应的分析方法。这个分析方法需要考虑产品之间的直接和间接生产关系,以及区分生产方式和产品。有了这样的分析,除了度量生产方式和产品的影响力,我们还可以看看如果某种局部的产品或者生产方式的调整能够实现,这个效果会怎样。例如,某个产品消失了减产了,或者某个新的生产方式出现了,会对整个生产系统有什么影响,等等。
实际上,生产过程也可以看做是广义的化学反应网络:产品就是反应物、生产方式就是化学反应。那么,当我们没有格式化的产品网络可以用的时候,我们也可以暂时用化学反应网络的数据来开展研究。
如果我们要得到产品网络,我们首先需要产品生产关系的文本,然后,从文本中获取生产关系。类似地,我们可以从化学论文中获取化学反应网络的数据。实际上,后者已经有专业的公司和研究者来做[1][2][3][4]。这里有一个更完整的化学反应数据集列表[5]。
但是,在产品生产关系上,没有这样的已经做好的数据集。那么,有没有文本材料呢,如果有,能不能通过自然语言处理技术来从文本得到结构化数据集呢?
最近发现了一个文本材料,“How Prroducts Are Made”网站[6],列出来了很多产品的生产过程,原材料。
另一项生产关系数据是软件依赖关系。例如github上各个研究项目之间的依赖关系,linux系统的软件依赖关系。不过这个数据本身一般来说就是已经格式化的,不用挖掘。这个数据可以直接拿过来研究哪个软件最关键,那个软件在其依赖软件基础之上提供了最大的跳跃或者说附加值(例如,每个软件的下载次数或者某种使用程度计量当做外界,然后反向传播到软件依赖网络内之后得到每个软件的贡献量,接着组合之后的软件的这个量减去组合之前的这个量,就可以当做这个组合的附加值)。
自然语言处理技术得到结构化产品生产数据
下一步就是看看能不能用自然语言处理技术来从“How Prroducts Are Made”网站[6]得到结构化产品生产网络的数据了。
最简单的方法,直接用“How Prroducts Are Made”网站的产品列表为产品集合,直接从文本中检索匹配。稍微复杂一点,可以允许词矢量近似匹配,也就是包含并不完全是一个名字的产品。更复杂的,可能就需要来设计更好的自然语言处理方法了。
参考文献
- ↑ https://www.cas.org/products/scifinder-n
- ↑ https://www.reaxys.com/
- ↑ https://pubchem.ncbi.nlm.nih.gov/
- ↑ http://jess.murdoch.edu.au/jess_supply.shtml Peter M. May and and Kevin Murray, Database of Chemical Reactions Designed To Achieve Thermodynamic Consistency Automatically, Journal of Chemical & Engineering Data 2001 46 (5), 1035-1040, DOI: 10.1021/je000246j
- ↑ http://www.organicworldwide.net/content/reaction-databases
- ↑ 6.0 6.1 http://www.madehow.com/
本分类目前不含有任何页面或媒体文件。