分类:物理学概念网络和学习

来自Big Physics


研究背景和问题

根据概念地图以及汉字学习和检测研究[1]的原理——概念网络上的广义投入产出分析,我们可以来做物理学学科概念网络上的学习和检测的研究。

原则上,我们应该先有一个物理学学科概念网络。但是,这个东西事实上没有整理好的形式。不过,其实arxiv论文全文、Wikipedia物理类词条集合以及词条之间的联系、物理教材的全文、美国物理学会(APS)的PACS分类代码树,合起来提供了一个相当可用的素材。因此,第一步,我们可以通过这几个素材来建立概念网络。概念网络原则上包含:概念和概念之间的关系连词,但是,初步形式可以忽略连词,仅仅建立联系。建立集合和联系的方法可以是Wikipedia的词条和词条之间的超链接,可以是全文经过word2vec处理之后的最相似(相似性截断)的概念,以及两者的某种混合。联系的方向可以是人工审阅,或者某种机器学习算法。

最简单和粗糙的还可以考虑PACS最底层代码在APS文章中的共现网络当作概念网络。或者人工制作一个小领域,例如力学的概念网路。使用频率矢量也可以从APS文章的摘要中统计出来。

一旦有了概念网络,我们还要统计使用频率。这个可以简单从语料库(例如,仅仅arxiv全文,或者再加上Wikipedia、教材等)统计得来。

有了概念和使用频率,那么,我们就可以来做广义投入产出分析了,例如把使用频率当做外界,来做PageRank或者投入产出分析,就可以得到每一个物理概念的重要性。

同时,我们还可以做检测算法的研究。

更加重要的事情是,通过这个工作,我们发展方法、展示可以这样做和这样做的好处,等到将来有了更好的学科概念网络,我们就可以得到具有实用性的系统,用于指导学科的教和学,还有考试。

同时,这个研究也将是以科学家的活动记录尤其是文献数据为基础的科学计量学服务于教和学的第一个例子。教和学,应该是科学学的应用学科。

研究思路和下一步工作

  1. 找一个物理(或者医学)专业词汇表,例如词典、pacs、APS分类词汇
  2. 找一个研究论文语料库,对语料库做词频统计
  3. 用word2vec处理语料或者基于Wikipedia、教材得到概念集合、概念间联系,在这个里面可能还得用tf-idf之类的来取出来专业词汇
  4. 在概念网络和使用频率的基础上,做广义投入产出分析、高效检测算法的研究(概率推断)
  5. 看得到的结论的对于学习、教学、考试的含义,例如对比计算出来的概念学习顺序和一般教材的概念学习顺序
  6. 是不是可以做一下学习或者检测的实验研究,或者至少专家教学知识选择的对比研究
  7. 得到的概念网络可以用来做文章创新性和交叉性(期刊、作者、单位等的多样性)的研究
  8. 反过来,那些基本上孤立的,使用频率也不高的,就属于应该被淘汰的知识,龟腚知识。挖掘出来这样的知识,也是有意义的。

更一般的自然语言处理用于科学学研究

实际上,科学学有大量的研究需要形式数据结合内容数据,因此自然语言处理在科学的是大有作为的:大量的内容数据都要从用自然语言处理文章信息而来。

除了上面的概念和概念网络的发现,其实最简单的ngram爆发(突然之间使用频率起来了),也是有意思的问题。

概念的消岐和归并等等,一直到论文到概念网络的标记,都需要靠自然语言处理。

参考文献

  1. Xiaoyong yan, Ying Fan, Zengru Di, Shlomo Havlin, Jinshan Wu, Efficient learning strategy of Chinese characters based on network approach, PloS ONE, 8, e69745 (2013) DOI: 10.1371/journal.pone.0069745.

附件

标题和摘要

Scientometrics helps to reveal what/how to teach/learn

What to teach, how to teach, what to learn and how to learn are the key questions that must be answered before writing textbooks, offering courses or even every individual classes, designing exams or assesments. Previously, we mainly rely on experts on domain subjects and on education to answer these questions, and now we think that it is the time to let research papers and concept maps to help the experts to tackle the questions. Data extracted from publication records and algorithms which can make good use of those relational data can pontentially help to improve teaching and learning. In this work, we try to present such an example, which makes use of scientometrical data and network science algorithms to helpfully improve teaching and learning. The discovered set of concepts and their learning paths seems to be reasonable as judged by domain experts. However, validity of the proposed systemic approach still need to be further examined preferably by experiments.

本分类目前不含有任何页面或媒体文件。