分类:Word2vec用于概念地图制作

来自Big Physics


概念地图的制作算法是一个困难的问题。大多数时候,我们需要手动来制作概念地图,并且也体现制作者对这些个概念的独特的理解。但是,有的时候——例如在考虑一个学科或者一个学科的某个子领域的概念地图的时候,我们也需要一个粗略的自动制作的算法,至少用来当做手动制作的基础。

同时,在机器翻译、自然语言理解、论文分类等应用性计算语言学的问题中,概念地图也是具有非常大的威力的。例如,翻译就可以看做从一门语言的词语到概念,从概念到概念,从概念到另一门语言的词语,这样一个过程。其中,由于概念之间的关系是普适的,跨越语言的,因此,实际上,从概念到概念这一步就需要对比来自于两个语言的概念地图来完成——一个语言中的概念网络和另一个语言中的概念网络应该是一致的。这个时候,如何从文本构建概念网络就成了一个重要的技术。

技术实现

通过word2vec来通过处理文本制作概念地图,然后,通过比较两种语言的概念地图来对上概念。

例如英文版物理的Wikipedia(或者一套英文版的物理书),德文版物理的Wikipedia(一套德文版的物理书)。分别用word2vec处理,来得到概念之间的关系,甚至连词。然后,对比得到的概念地图来找对应关系,并且通过一本英德物理词典来检验这个对应关系。技术上,对文本材料分别做一遍word2vec。对已经给定的概念集合(怎么确定概念以后再说),给出来相互联系。并且对于需要了连起来的词,通过找共同连接词来确定了连词。最后,对两张概念地图做结构识别,来确定对应关系。这个结构识别可能也需要从网络的角度来稍微研究一下。

下一步工作

  1. 确定文本材料
  2. 确定概念集合
  3. 确定两种语言的概念对应关系
  4. 用word2vec处理文本,构建各自的概念地图。初步考虑运用矢量相似性
  5. 两个相似网络的对应顶点识别算法
  6. 结果和检验

参考文献

本分类目前不含有任何页面或媒体文件。