分类:概念网络上的高效学习和检测
研究背景和问题
如果我们要检测灯泡是否合格或者说合格率,由于灯泡之间没有内在联系(一层程度上同批次的可以当做一样,但也不是真的就可以当做一样),只能够通过把灯泡随机挑选出来测试。如果这些灯泡已经建立内在联系(这部分不计入检测成本),例如一个个串行相连,并且坏的比例很少,那么,实际上就可以把这些灯泡一起点亮来检测——有坏的就大家都不会亮。接着用二分法在各自二分之一的地方再次做检测,就有可能可以一次把某一大段合格的灯泡都检测出来。当然,实际问题中,“灯泡”之间已经建立的联系就不是这么简单了,可能不是人能够设计的。那么,这个时候,怎么检测?
例如,检测哪些汉字是被试认得的(具体怎么算认得,额外讨论),哪些是不认得的。当然,我们可以一个一个来检测,或者随机抽样来检测。可是,如果我们考虑到汉字之间的内在联系,例如“木——林——森”,我们就有可能通过检测到“不认识木”来推断“也不认识林森”,来提高检测的效率。在一个更一般的[汉字结构网络][1]上,如何来设计一个检测算法呢?
同样地,对于汉字的学习,我们也可以一个一个来学习,甚至按照某种随机顺序来学习。但是,考虑到汉字之间的联系,例如同样的“木——林——森”的例子,我们需要做到:第一、汉字学习的时候,在个体的层面需要用好汉字之间的联系;第二、在整体的层次,需要考虑学习顺序的问题。例如一般来说,学习了“木”之后,再来学习“林”就会简单很多。学习了“女、马”再来学习“妈”就会简单很多。不过,也不能就考虑这个从简单到复杂的顺序,还需要考虑使用频率,例如“你”这个字就不一定需要先学“人、尔”,因为“尔”的使用频率比较低,不太值得提前学习——学完了实际中很少用得着。因此,在学习问题中,需要综合考虑联系和价值两个方面。更一般地,还需要考虑学习基础——学习者已经具有的基础——和学习目标——学习者有可能仅仅想学一部分字——这些个性化的问题。
更一般地来说,实际上,任何一个知识网络,高效的学习顺序算法和检测算法都有可能是存在的并且具有一般可用性的。这就是把知识和方法分开的好处。这就是网络科学的威力——把问题表达成底层网络和网络上的分析计算两个层面。这就是大数据科学的威力——当然数据质量很重要,但是,从一个问题提炼的算法很可能具有一般通用性也很重要。
当然,数据是根本。因此,实际上,我们在跟文字研究专家合作做数据。其次,有了数据和我们的分析方法和结果,就需要做实验来检验这些结果。再次,如果结果具有一定的合理性,就需要开发教材和其他学习材料,并且开展这些材料的实验研究。
研究思路
由于这部分的数学公式比较多,我整理在了[吴金闪的工作和思考]上面。目前阶段只有数学模型和近似解法,没有找到真正的解。
下一步的工作
- 跟踪一下数据研究的进度
- 求解上面两个数学问题
- 可能需要学习概率图模型和消息传递算法
- 相关的染病和染药同时传染的疾病的模型的研究
- 算法的实验检验、实验性学习材料的编撰和实验研究、系统性教材和学习材料的开发和实验研究
参考文献
- ↑ Xiaoyong yan, Ying Fan, Zengru Di, Shlomo Havlin, Jinshan Wu, Efficient learning strategy of chinese characters based on network approach, PloS ONE, 8, e69745 (2013) DOI: 10.1371/journal.pone.0069745.
本分类目前不含有任何页面或媒体文件。