分类:学生评教用于教师教学评价

来自Big Physics


问题背景

学生的课程结束以后会对教师的教学做评价。一般来说,这个评价包含打分题和自由建议题。打分题考察了教师教学的多个方面,例如难度、作业量、课程结合研究等等。很多学校用这个打分来评价老师,甚至决定给老师什么水平的教学津贴。我们想来看看这样做的合理性,也就是,对于给定的任意一位老师,其学生的评分多大程度上是比较一致的,如果比较一致,是否可以把这位老师和其他的老师们区分开来。如果不一致,则不应该对这位老师做基于这个打分的评价。另外,如果可能,把老师们按照教学评价分个层次做个聚类,甚至排个序。再一次提醒注意,如果学生评价分散程度比较高,则很可能不能进入排序和聚类分析。

实际上,学生评价比较分散的老师,往往是教学上有自己特点的老师,然后一部分学生很喜欢这个特点,另一部分学生非常不喜欢这个特点。因此,对于学生平角比较分散的老师的评价,确实需要非常谨慎。

类似地,我们还可以评价一个个学院,或者任意某种老师的集合的划分。

那么,如何来看一个老师的学生评价是否分散呢?如果来做聚类和排序呢?

方法

我们来回答上面的各个方法上的问题。

判断一个集合的元素值是否分散的方法

对于正态分布,实际上,方差就代表了一个分布是否发散。因此,我们对于每一个集合的元素(假设其符合正态分布),可以得到均值和方差(的估计值)。然后,我们就可以来计算出来,任意选择两个集合,其中一个比另一个大的概率(大概来说,就是当均值的距离远远大于两个集合的标准差之和的话,均值大的那个集合大于均值小的那个的几率就很大。能够这样做的原因是正态分布的样本点基本上都处于围绕着均值的大小为3个标准差的一个区域内)。这个概率我们称为成功指数——从两个集合中任意抽抽样得到的来自于一个集合的元素大于另一个集合的元素的几率。

对于非正态分布,怎么办?尤其是对于方差集合发散的分布函数,均值的代表性就更差了,样本经常可以远离均值。

比较两个集合的方法中,我们讨论了对于任意的分布函数,通过Bootstrp重抽样的方法来得到一个一个比较的成功指数,两个两个比较的成功指数,以及任何多个来自于一个集合的样本的均值和任何多个来自于另一个集合的样本的均值比较的成功指数。于是,我们就能够比较任意两个集合的大小了:只要这个成功指数在某个条件下非常大。这个条件很多时候在两个集合一个一个抽样比较的情况下不满足,于是就可以找到满足这个条件的来自于两个集合的样本的大小。然后,我们看,如果这个大小远远小于各自集合的元素的数量,则可以认为这两个集合还是能够比较大小的。

聚类的方法

对于两个不能区分大小的集合——可以是一一对比不能区分,也可以是多个和多个对比不能区分——我们把这两个集合用一条边连起来,构成集合的网络。在这个网络上做聚类分析,就可以得到“不能区分的集团”,也就是说,聚在一起的形成集团的集合之间更加不可区分,处于多个不同集团的集合之间更加可以区分。这个正好就是集团的层次。回到教师的问题,就可以看做是教师教学质量的一个分层次。

排序的方法

对于能够区分的集合,我们只需要按照各个集合的平均值做一个排序。但是,如果我们遇到很多不能区分的集合——也就是集合之间相互交叉的区域的很大——怎么办呢?

并行排序中,我们讨论了一个不按照分值,而是按照个体评价者的排序和个体排序在整体中传递的方法:如果很多个评价者(学生)都判断某一个被评价对象(教师教学)优于另一个被评价对象,那么,很可能,确实这两个被评价对象存在着这样的关系;并且这样的排序还可以传递——如果A优于B,B优于C,则很大可能A优于C(注意,如果产生冲突,需要计算两者的概率,然后来决定最后的结果。顺便,多大程度上产生这个冲突,也是很好的检验这个方法的实证数据)。

结合排序方法和前面的两个集合的可比性,我们可以在“传递排序”的基础上,仅仅考虑那些可比性非常高的评价结果的传递作用,而忽略可比性低的那些。

下一步工作

  1. 获取学生评教数据
  2. 计算每一位老师如果想要和其他老师区分开来的话,最小的样本数量是多少
  3. 计算任意两位老师之间的可比性(成功指数),在不同情况(一一比较、两两比较、最大成功指数比较)下的成功指数,设定成功指数阈值,构建网络,做聚类分析
  4. 结合集合可比性来做“传递排序”研究

本分类目前不含有任何页面或媒体文件。