分类:词汇-含义矩阵

来自Big Physics


最近发现“词汇-含义矩阵”是语言中非常核心的一个东西[1][2],可以做点好玩的工作。实际上,所谓的机器翻译就是把两种语言的“词汇-含义矩阵”辗转相乘——先从一种语言的词汇变成含义,再用这个含义变成另一种语言的词汇。学习语言的过程也就是学会这个矩阵的过程,从词汇到含义的接收,以及从含义到词汇的表达。

当然,狭义的词汇-含义矩阵是单词和含义的联系,更一般的词汇-含义矩阵可以是n-gram和含义的联系。或者说,反过来,用n-gram当做环境来更明确地在这个环境下确定“词汇-含义矩阵”的元素的值——也就是一个单词在周围其他词不同的时候,含义可能不同。

“词汇-含义矩阵”

在语言研究中,有一个叫做“词汇-含义矩阵”的东西非常关键。其本质是一个加权二分网,一类顶点是词汇,另一类顶点是含义或者说现实世界的事物概念。如果一个词汇能够表示某一个含义,则在这两个顶点之间建立一条连边。如果仅仅考虑边的存在性,则记做。但是,为了描述更加完整的信息,实际上,我们最好能够用两个条件概率,也就是。如果我们假设实际上在语言使用中,给定一个含义之后,对词汇的选择是任意的,则。类似地,如果给定一个词汇,所表达的含义是在可能的范围内任意的,则。也就是说,有向加权网络在简化假设的条件下,是由无向无权网络来决定的。当然,在考虑了实际情况之后,这个简单的函数关系就不存在了,但是,至少,在结构上还是来决定,是没问题的,也就是只有不为零的哪些边上,才会不为零。这三个矩阵实际上是可以从实际文本中统计出来的。

一旦有了这两个条件概率,我们就可以得到,,以及,也就是说,不是独立的,两个矩阵互逆(广义逆),两个向量通过矩阵相联系。

但是,从实际文本中统计这个矩阵有一定的困难。第一个困难在于矩阵的获得。不过,目前已经有类似于WordNet之类的数据库来给出了。第二个困难在于向量的获得。前者还比较简单。后者就需要对文本的每一个词做含义标记,非常难。第三个困难在于条件概率矩阵就简单看做广义逆)的获得。这个需要做好文本的每一个词的含义标记,然后来统计条件概率。非常难。

也就是,

  1. 困难一:的获得。
  2. 困难二:的获得。

困难的解决

对于困难一,是不是有做了标注的语料?或者简单粗暴地用word2vec的矢量空间维数来解决——当然,能够遭到一种最优矢量维数就更好:也就是说,我就假设独立的意思就是这么多个了,然后,看看,后续的研究是不是就能做,并且,其结果一定程度上不受这个选择的影响。

对于困难二,是不是可以从方程组,以及中,通过已知的求出来?


下一步工作

  1. 看看从上面的方程组求出来两个互为广义逆的矩阵的技术
  2. 看看问题一的两个可能的解决方案
  3. 对算出来的矩阵做后续研究来检验:例如分析语言的效率[2]

参考文献

  1. Ramon Ferrer Cancho and Ricard V. Solé, Least effort and the origins of scaling in human language, PNAS 100(3) 788-791(2003). https://doi.org/10.1073/pnas.0335980100
  2. 2.0 2.1 Mikhail Prokopenko, Nihat Ay, Oliver Obst and Daniel Polani, Phase transitions in least-effort communications, J. Stat. Mech. 11. 11025(2010).

本分类目前不含有任何页面或媒体文件。