分类:Measuring prerequisite relations among concepts

来自Big Physics
Safin讨论 | 贡献2021年10月22日 (五) 19:10的版本 →‎总结和评论

Chen Liang, Zhaohui Wu, Wenyi Huang, and C. Lee Giles. 2015. Measuring prerequisite relations among concepts. In Proceedings of EMNLP. 1668-1674


A prerequisite relation describes a basic relation among concepts in cognition, education and other areas. However, as a semantic relation, it has not been well studied in computational linguistics. We investigate the problem of measuring prerequisite relations among concepts and propose a simple link-based metric, namely reference distance (RefD), that effectively models the relation by measuring how differently two concepts refer to each other. Evaluations on two datasets that include seven domains show that our single metric based method outperforms existing supervised learning based methods.




根据Frame semantics理论[1],先决关系是学习,组织,应用,创造知识的认知过程中,在概念之间存在的一种天然的依赖关系,并且先决关系在教和学的领域有一定的研究,但是在计算机语义学领域很少研究,而且,传统方法研究先决关系,通常采用机器学习[2],比较复杂,因此,这篇文章的作者在计算机语义学领域研究先决关系,提出了一种比传统的机器学习更加简单的方法。

相比先决关系,更普遍的是概念之间引用关系, 比如网页之间的超链接,文献之间的引用,作者认为,一个简单的引用关系无法形成先决关系,但是一定数量的引用关系,情况就不一样。根据frame semantics理论[1],为了理解一个概念,必须把与之相关的所有知识都理解,这里的知识可以看作是一系列相关概念集和,因此,一个概念可以用与之相关的概念来表示。假如概念A的大部分相关概念引用概念B,但B的相关概念没有引用A,则B很可能是A的一个先决条件,那如何来度量呢?

作者设计了一个函数,把一对概念映射成一个实数,用于度量A需要B(B先决A)的程度。也就是,在矢量空间上计算两个相关概念相互引用时的引用距离RefD [math]\displaystyle{ RefD(A, B) = \frac{ \sum_{i=1}^k r(c_{i}, B) w(c_{i}, A) }{ \sum_{i=1}^k w(c_{i}, A) } - \frac{ \sum_{i=1}^k r(c_{i}, A) w(c_{i}, B) }{ \sum_{i=1}^k w(c_{i}, B) } }[/math],其中,[math]\displaystyle{ C=\{c_{1},...,c_{k}\} }[/math]是概念空间,包含所有概念;[math]\displaystyle{ w(c_{i}, A) }[/math]是度量概念[math]\displaystyle{ c_i }[/math]对概念[math]\displaystyle{ A }[/math]重要性的权重;[math]\displaystyle{ r(c_{i}, A) }[/math][math]\displaystyle{ c_{i} }[/math]是否引用[math]\displaystyle{ A }[/math]

其中权重的取值有两种方法 1. EQUAL [math]\displaystyle{ w(c, A) = \begin{cases} 1, & \text {if c \lt math\gt \in }[/math] L(A)} \\ 0, & \text{if c [math]\displaystyle{ \notin }[/math] L(A)} \end{cases} </math> [math]\displaystyle{ L(A) }[/math][math]\displaystyle{ A }[/math]引用的概念的集合,也就是能用于表示[math]\displaystyle{ A }[/math]的概念的集和,也就是从[math]\displaystyle{ A }[/math]能链接到的概念的集和 2. TFIDF [math]\displaystyle{ w(c, A) = \begin{cases} tf(c, A)log \frac{N}{df(c)}, & \text {if c \lt math\gt \in }[/math] L(A)} \\ 0, & \text{if c [math]\displaystyle{ \notin }[/math] L(A)} \end{cases} </math> [math]\displaystyle{ tf(c, A) }[/math][math]\displaystyle{ c }[/math][math]\displaystyle{ A }[/math]中出现的次数, [math]\displaystyle{ N }[/math]文章总数, [math]\displaystyle{ df(c) }[/math]是出现[math]\displaystyle{ c }[/math]的文章的数量

1. RefD的特性

  - normalized:[math]\displaystyle{  RefD(A, B) \in [−1, 1]  }[/math]
  - asymmetric:[math]\displaystyle{ RefD(A, B) + RefD(B, A) = 0 }[/math]
  - irreflexive:[math]\displaystyle{ RefD(A, A) = 0 }[/math]

2. RefD取值 [math]\displaystyle{ RefD(A, B) \in \begin{cases} (\theta, 1], & \text {if B is a prerequisite of A} \\ [−\theta, \theta], & \text{if no prerequisite relation} \\ [−1, −\theta), & \text{if A is a prerequisite of B} \end{cases} }[/math]

具体的计算 1. 数据集

  - CrowdComp[2] 现成的,包含概念对和先决关系
  - Course 大学课程,爬虫得到概念对和先决关系
  - wikipedia的词条之间的引用关系

2. 对比 RefD 和 Maximum Entropy (MaxEnt) classifier[2] 3. 根据最优准确率确定[math]\displaystyle{ \theta }[/math]

1. 作者认为他们的工作

  - 关注更一般的概念的先决关系
  - 没有使用feature,而是利用单个指标
  - 方法更加易于解释

2. 更进一步

  - 可以作为基础用于构建概念层次,并且可以作为教学的辅助工具
  - 可以用于其它需要衡量先决关系的邻域,比如文章和书的阅读顺序
  - RefD可以引入到已有的监督模型,以提高准确度
  - 可以用于对一个概念的不同先决关系的排序
  - 可以从富连接的结构中,比如wikipedia, 科研文献等,获得更多的信息


  1. 1.0 1.1 Charles J Fillmore. 2006. Frame semantics. Cognitive linguistics: Basic readings, 34:373–400.
  2. 2.0 2.1 2.2 Partha Pratim Talukdar and William W Cohen. 2012. Crowdsourced comprehension: predicting prerequisite structure in wikipedia. In Proceedings of the Seventh Workshop on Building Educational Applications Using NLP, pages 307–315. Association for Computational Linguistics.
