分类:取多个样本做均值来比较

来自Big Physics


简单来说,我们通过在一个分布函数里面做Monte Carlo或者在一个样本集合里面做Bootstrap抽样来获取这个分布函数或者样本集合的大小为N的样本[math]\displaystyle{ \left\(x^{i}_{1}, x^{i}_{2}, \cdots, x^{i}_{N}\right\} }[/math],然后,我们再来讨论这些个样本上某个统计量,例如均值,[math]\displaystyle{ \lt x^{i,N}\gt =\frac{1}{N}\sum_{n=1}^{N}x^{i}_{n} }[/math],的均值和方差,以及分布函数。

理论上,对于幂律分布这样的矩发散的分布,Bootstrap方法得到的样本统计量和分布函数统计量的关系还是一个理论问题。但是,从任何一个有限大小的样本集合出发,通过重抽样得到的[math]\displaystyle{ \lt x^{i,N}\gt }[/math]的部分应该是正态分布。不过,在目前的工作里,这个理论问题暂时不处理。

具体问题的背景可以是一个期刊排序的问题。例如,如果我们以期刊的平均被引次数这个指标为例。对于一个期刊,我们可以通过Bootstrap方法产生大量的样本,然后,计算这些样本的平均被引次数,接着,我们就可以计算这些在不同样本上的平均被引次数的方差。如果这个方差比较大(怎么比较另说),那么,就说这个期刊的一致性比较低。我们这里的“一致性”可以简单地认为是一个集合的数字的方差的大小。不过,由于某些集合,或者说分布函数,的方差往往很大,甚至发散,例如在胖尾分布里面。因此,我们在这里提出了新的考查一致性的方式:也就是通过取多个样本来求均值,然后再计算这些均值的均值和方差,以及分布函数。


沿着这个思路,我们可以提出来一个指标来衡量一个抽样集合多大才够大,以至于能够用来当做这个集合背后的事情的代表[1]。例如,如果我们想知道某个群体的人的典型身高,那么,由于背后有正态分布这个假设(并且已经通过了验证),那么,我们只要取比较少的样本,就可以得到对典型身高的比较好的估计。实际上,我们通过中心极限定理就知道了整体方差和个体方差具有[math]\displaystyle{ \frac{1}{\sqrt{N}} }[/math]的关系。但是,对于更加一般的分布函数,整体方差和个体方差之间的关系一般不满足这个。那,怎么办?多大的样本才能保证某个平均值就是这个系统的典型值?从这个意义上,我们也称这个一致性问题为“多大才够大”。我们发现前面提到的基于Bootstrap的思路可以解决这个问题。对于一致性比较高的集合,这个大小可能比较小,反之可能比较大。

具体定义

对于给定的两个集合[math]\displaystyle{ X,Y }[/math],定义一个两个集合各自取一个元素的比较得到其中一个集合的元素大于另一个集合的元素的频率为 [math]\displaystyle{ Pr\left(X \gt Y \left|\right. \langle x \rangle \gt \langle y \rangle \right) = \frac{\left(x\gt y\right)}{\left(x,y\right)} }[/math]。分子的含义是[math]\displaystyle{ \left(x\gt y\right) }[/math]的次数,分母的含义是[math]\displaystyle{ \left(x,y\right) }[/math]的对的个数。

再定义取两个集合的各自[math]\displaystyle{ K_X,K_Y }[/math]个元素,计算其均值[math]\displaystyle{ g\left(X,{K_X}\right) = \frac{\sum_{j=1}^{K_{X}}x_{j}}{K_{X}}, g\left(Y,{K_Y}\right) = \frac{\sum_{j=1}^{K_{Y}}y_{j}}{K_{Y}} }[/math],然后相比,得到一个大于另一个的频率为 [math]\displaystyle{ Pr\left(G\left(X,{K_X}\right) \gt G\left(Y,{K_{Y}}\right) \left|\right. \left\langle x \right\rangle \gt \left\langle y \right\rangle \right) = \frac{\left(g\left(X,{K_X}\right)\gt g\left(Y,K_{Y}\right) \right)}{\left(g\left(X,{K_X}\right), g\left(Y,K_{Y}\right)\right)} }[/math],其中[math]\displaystyle{ G\left(X,{K_X}\right) = \left\{g\left(X,{K_X}\right)\right\}, G\left(Y,{K_Y}\right) = \left\{g\left(Y,{K_Y}\right)\right\} }[/math]

对于很窄的分布,例如正态,当两个集合的方差很小,均值差别很大的时候,这个一个个相比的概率,就有可能比较大。但是,当分布函数比较胖的时候,例如方差很大,于是,就算均值举例不小,这个一个个相比的概率也可能比较小。我们问,有没有可能,就算在一个个相比的概率比较小的情况下,仍然,[math]\displaystyle{ K_X,K_Y }[/math]个相比的概率比较大,而这个比较大的时候要求[math]\displaystyle{ K_X,K_Y }[/math]多大?

当然,对于一个个相比的概率就比较大的情况,自然,我们会发现,这个时候[math]\displaystyle{ K_X=1=K_Y }[/math]就可以。

有什么用

那这样的大小计算出来以后有什么用?第一,如果你需要比较这些个集合上的统计量,最少要获得这些样本,否则比较没有意义。而且这个大小实际上是依赖于集合自身的特征的。这样,我们就知道了,有的时候就算两个群体的样本大小不一致,只要各自满足大于前面计算出来的必要大小,还是能够用的。否则,就不能使用。这个在通过有限的老师的研究工作表现来评价一个学校,在通过有限的学生的反馈评价一个老师上课的表现,这些事情上都是有意义的。第二,这个指标本身也可以当做一种评价,一致性评价。也许有的期刊平均被引次数不太高,但是,这个必要大小比较小,也肯定包含了编辑的努力,作者的配合,或者至少补充了平均被引次数这个指标。

如何比较

具体比较上,可以取两个集合来做比较,保证两者的均值之间的距离大于两者的标准差之和。这就是足够大的一个可行的标准[1]。还可以证明,在这个标准下,确实一个来自于高均值的分布的样本值通常大于来自于低均值的分布的样本值。还可以把一个样本和所有的其他样本比较。

后续工作

在这个指标和计算方式提出来之后,下面我们可以尝试用这个指标来计算在依靠有限的老师的研究表现来给学校排名的时候,多大才够大的问题。我们也可以计算出来所有的期刊的这个必要大小并且发布在网上。我们还可以在其他排名问题中,从样本大小的角度,来讨论排名的可靠性问题。

实际上,在我们提出这个指标的过程中,我们对于随机在两个集合中各自去一个样本,其中一个样本的某特征大于另一个样本的可能性是多少的问题非常关心。或者说,整个讨论就是建立在这个基础之上的。这个问题也是Percentile Ranking关心的核心问题[2]

除了两两比较,自己和其他所有的比较,我们还可以提出一个分层次的比较。例如把所有的对象按照平均值排序,分成若干份。然后制定一个层次内比较和层次外比较的足够大的大小值。例如,分成十个层次。然后对于给定的期刊取其所处的层次,分成自己一个集合,其他一个集合,算出来这个情况下的足够大的大小。接着,取在自己的层次之上和之下的那两个层次(或者仅仅考虑之下的那个层次),分别计算出来足够大的大小。其实,原则上,还需要考虑自己和离得更远的层次之间相比的问题。不过,可以想见,在一般情况下,这个离得更远的相比所需要的样本大小应该不会比近邻相比的要大(这一条要验证)。于是,只需要考虑近邻相比就可以。

前百分之几的比较

实际上,我们还可以提供更加详细的信息。例如,考虑把集合[math]\displaystyle{ X,Y }[/math]分成前百分之几的子集,也就是两个集合的top[math]\displaystyle{ r\% }[/math][math]\displaystyle{ \left({r\%X},{r\%Y}\right) }[/math]。然后对这两个子集来做上面的[math]\displaystyle{ K_{r\%X},K_{r\%Y} }[/math]的计算。这个计算能够解决什么问题:详细地比较两个集合的top[math]\displaystyle{ r\% }[/math],而不是简单地整体比较两个集合。

甚至,我们可以对这些[math]\displaystyle{ {r\%X},{r\%Y} }[/math]集合,给出来不同的参数[math]\displaystyle{ K_{r\%X},K_{r\%X} }[/math]组合下的概率值[math]\displaystyle{ Pr\left(G\left({r\%X},{K_{r\%X}}\right)\gt G\left({r\%Y},{K_{r\%Y}}\right)\right) }[/math]。例如,用来比较中国和美国的物理学的文章的被引次数。

结合Log-Normal分布提出期刊评价新指标

前人的研究证明,期刊中的文章的被引次数基本上符合Log-Normal分布(添加文献)。也就是说,只要把被引次数做一个对数转换,[math]\displaystyle{ x=ln\left(c\right) }[/math](考虑[math]\displaystyle{ c=0 }[/math]的特殊情况,可以考虑[math]\displaystyle{ x=ln\left(c+1\right) }[/math]),就可以得到正态分布。记这个正态分布的均值和方差为[math]\displaystyle{ \mu }[/math][math]\displaystyle{ \sigma }[/math]

于是,问题就成了对于两个给定的分布函数(对应着两个期刊),[math]\displaystyle{ \left(\mu^{1},\sigma^{1}\right) }[/math][math]\displaystyle{ \left(\mu^{2},\sigma^{2}\right) }[/math],我们能否把[math]\displaystyle{ Pr\left(C^{1}\gt C^{2}\left|\right. \mu^{1}\gt \mu^{2}\right) }[/math]计算出来。如果能够计算出来,再进一步检验,在什么条件下,[math]\displaystyle{ Pr\gt P_{\mbox{threshold}}=0.9 }[/math]? 在之前的工作中已给出了相关的证明和验证,见[3]

如果不满足[math]\displaystyle{ Pr\gt P_{\mbox{threshold}}=0.9 }[/math]足够大,则看一下能不能计算出来[math]\displaystyle{ Pr\left(G\left(C^{1},K_{1}\right)\gt G\left(C^{2},K_{2}\right)\left|\right. \mu^{1}\gt \mu^{2}\right) }[/math],然后再来和[math]\displaystyle{ P_{\mbox{threshold}} }[/math]比较。原则上,这些都应该是[math]\displaystyle{ \left(\mu^{1},\sigma^{1}\right) }[/math][math]\displaystyle{ \left(\mu^{2},\sigma^{2}\right) }[/math]的表达式,也就是,[math]\displaystyle{ Pr\left(G\left(C^{1},K_{1}\right)\gt G\left(C^{2},K_{2}\right)\left|\right. \mu^{1}\gt \mu^{2}\right)=f\left(\mu^{1},\sigma^{1},K_{1};\mu^{2},\sigma^{2},K_{2}\right) }[/math]。当然,如果这个表达式求不出来,也没关系,只要有一个明确的数值计算程序就行。也就是写下来一个程序,对于给定的[math]\displaystyle{ \left(\mu^{1},\sigma^{1};\mu^{2},\sigma^{2}\right) }[/math],再给定[math]\displaystyle{ \left(K_{1},K_{2}\right) }[/math],能够计算出来[math]\displaystyle{ Pr }[/math],不管是通过解析表达式、数值积分、或者Bootstrap重抽样来计算。

有了这个函数,[math]\displaystyle{ Pr\left(G\left(C^{1},K_{1}\right)\gt G\left(C^{2},K_{2}\right)\left|\right. \mu^{1}\gt \mu^{2}\right)=f\left(\mu^{1},\sigma^{1},K_{1};\mu^{2},\sigma^{2},K_{2}\right) }[/math],我们就可以找出来满足条件的足够大的[math]\displaystyle{ \kappa^{1}_{2},\kappa^{2}_{1} }[/math]了。如果这个函数的解析式能够得到,我们甚至可以得到[math]\displaystyle{ \kappa^{1}_{2},\kappa^{2}_{1} }[/math]的函数形式(由自变量[math]\displaystyle{ \left(\mu^{1},\sigma^{1};\mu^{2},\sigma^{2};P_{\mbox{threshold}}\right) }[/math]决定)。

于是,对于每一个期刊[math]\displaystyle{ i }[/math]我们就有了两个指标,[math]\displaystyle{ \left(\mu^{i},\sigma^{i}\right) }[/math];同时,对于每一对作对比的期刊[math]\displaystyle{ i,j }[/math],我们有一对指标[math]\displaystyle{ \kappa^{i}_{j},\kappa^{j}_{i} }[/math]。如果后者是前者的一个能够明确写出来的函数形式,就更好了。如果原始数据符合正态分布,则这样的解析表达式是存在的,见[1]

当然,还可以考虑比较[math]\displaystyle{ x^{1}=ln\left(c^{1}\right),x^{2}=ln\left(c^{2}\right) }[/math],也就是[math]\displaystyle{ Pr\left(x^{1}\gt x^{2}\left|\right. \mu^{1}\gt \mu^{2}\right) }[/math],这样利用正态分布没准解析表达式可以推导出来。当然,这个时候,一个期刊的“平均”被引次数实际上是这样平均的:[math]\displaystyle{ \frac{x^{1}_{1}+x^{1}_{2}}{2}=ln\left(\left(c^{1}_{1}c^{1}_{2}\right)^{\frac{1}{2}}\right) }[/math]。也就是说,当我们说一个期刊好过另一个期刊的时候,我们指的是前一个期刊的一定数量文章的被引次数的“几何平均”大于后一个期刊的一定数量文章的被引次数的“几何平均”,[math]\displaystyle{ g\left(C^{1},K_{1}\right)=\left(c^{1}_{1}c^{1}_{1}\cdots c^{1}_{K_{1}}\right)^{\frac{1}{K_{1}}} }[/math],而不是之前的[math]\displaystyle{ g\left(C^{1},K_{1}\right)=\frac{c^{1}{1}+c^{1}_{2}+\cdots + c^{1}_{K_{1}}}{K_{1}} }[/math]

高阶拟合优度

很多时候,当我们来对样本数据做分布函数检验的时候,需要对比多个分布函数,找到拟合得最好的那个。这通常就称为拟合优度检验。例如,通过KS检验的统计量,就可以来做拟合优度检验。但是,有的情况下,甚至拟合优度检验也不能区分两个分布函数哪一个更好。这时候,怎么办?

用上面的“去多个样本做均值来比较”的思想,我们可以来做一个叫做高阶拟合优度检验的东西。前面的对比一个分布函数和一堆样本的拟合优度检验就称为一阶拟合优度检验。这个时候,如果我们取样本中的两个算均值,然后,从分布函数中也产生两个样本做均值,来比较这个两两平均的样本和分布函数,就称为N=2阶拟合优度检验。类似的,可以取任意N的拟合优度检验。有一定可能,在低阶不可区分的分布函数,在高阶上是可以分出来哪一个分布函数拟合的更好的。

尤其是,在遇到像幂律分布、指数截断的幂律分布、lognormal分布等分布函数的样本的时候[4]

参考文献

  1. 1.0 1.1 1.2 Z. Shen, L. Yang, Z. Di and J. Wu, How large is large enough?, 正在投稿
  2. Lutz Bornmanna, Loet Leydesdorff, Rüdiger Mutz, The use of percentiles and percentile rank classes in the analysis of bibliometric data: Opportunities and limits, Journal of Informetrics 7 (2013) 158-165.http://dx.doi.org/10.1016/j.joi.2012.10.001
  3. Zhesi Shen, Liying Yang, Jinshan Wu, Lognormal distribution of citation counts is the reason for the relation between Impact Factors and Citation Success Index, Journal of Informetrics, 12(1), 153–157(2018). https://doi.org/10.1016/j.joi.2017.12.007
  4. Aaron Clauset, Cosma Rohilla Shalizi, and M. E. J. Newman, Power-Law Distributions in Empirical Data, SIAM Review 2009 51:4, 661-703

本分类目前不含有任何页面或媒体文件。