分类:统计检验的逻辑

来自Big Physics


这是对我们最近的一个关于统计检验的工作[1]的总结。

[2]讨论了统计检验的通常做法的逻辑问题。

一般来说,在统计检验中,给定数据[math]\displaystyle{ D }[/math]之后,我们想知道某个结果[math]\displaystyle{ H_{1} }[/math]正确的可能性,也就是我们想算出来[math]\displaystyle{ P\left(H_{1}|D\right) }[/math]。但是,一般来说统计检验是倒过来的,也就是算出来已经知道某个结论的情况下,产生的这个数据会怎样,也就是[math]\displaystyle{ P\left(D|H_{0}\right) }[/math],然后,认为当[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]很小的时候,[math]\displaystyle{ P\left(H_{1}|D\right) }[/math]很大。这确实是有问题的。

靠Bayesian公式,[math]\displaystyle{ P\left(H_{1}|D\right)=\frac{P\left(D|H_{1}\right)P\left(H_{1}\right)}{P\left(D|H_{1}\right)P\left(H_{1}\right)+P\left(D|H_{0}\right)P\left(H_{0}\right)} }[/math]。其中[math]\displaystyle{ H_{0} }[/math]就是[math]\displaystyle{ H_{1} }[/math]的否命题。于是,这个时候,我们需要以下四个量的值:[math]\displaystyle{ P\left(D|H_{1}\right), P\left(H_{1}\right), P\left(D|H_{0}\right), P\left(H_{0}\right) }[/math]。如果我们的统计检验是考虑了所有的这四个量,然后再计算出来[math]\displaystyle{ P\left(H_{1}|D\right) }[/math],则是没有任何问题的。当然,根据实际情况,有可能[math]\displaystyle{ P\left(H_{1}\right), P\left(H_{0}\right) }[/math]可以认为差不多,于是忽略。但是[math]\displaystyle{ P\left(D|H_{1}\right), P\left(D|H_{0}\right) }[/math]都是要检验的。

可是,在大多数统计检验问题中,仅仅[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]是考察的目标。这确实是有问题的,正像[2]指出来的一样。但是,这仅仅表示统计检验的习惯用法有问题,不表示统计检验本身有逻辑问题。因此,[2]是没有理解背后的逻辑,所以,过头了。

当然,在[math]\displaystyle{ P\left(H_{0}\right)\approx 0.5 \approx P\left(H_{1}\right) }[/math]的条件下,我们可以仅仅对比[math]\displaystyle{ P\left(D|H_{1}\right) }[/math][math]\displaystyle{ P\left(D|H_{0}\right) }[/math]。更进一步,在不是非常特殊的情况下,如果[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]很小很小,则我们可以猜测[math]\displaystyle{ P\left(H_{1}|D\right) }[/math]比较大(这时候实际上是假设[math]\displaystyle{ P\left(D|H_{0}\right)\ll P\left(D|H_{1}\right) }[/math],但是这个假设有时候不一定对:[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]很小很小的时候,[math]\displaystyle{ P\left(D|H_{1}\right) }[/math]同样可以很小很小,因此我们得不到[math]\displaystyle{ P\left(H_{1}|D\right) }[/math]比较大的结论),反之也然。

我们最近的工作[1]指出来了这个细致的区别——通常的统计检验中经常用的方式逻辑有问题不表示整个统计检验是有问题的,只需要把仅仅考察[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]变成考察[math]\displaystyle{ P\left(D|H_{1}\right), P\left(H_{1}\right), P\left(D|H_{0}\right), P\left(H_{0}\right) }[/math]。将来还会写下来一个R语言统计检验的扩展包,来补充通常的统计检验:也就是在可能的情况下,这四个概率都要算出来,然后给出来最后算出来的[math]\displaystyle{ P\left(H_{1}|D\right) }[/math]

Schneider做了一个新的回复[3],说由于很多人不相信Bayesian公式,因此,上面的论证是不对的。确实,我承认如果Bayesian公式不允许使用,则假设检验是有问题的。但是,为什么要不允许使用Bayesian公式呢?Bayesian公式的基础只不过就是集合的并运算和概率的定义而已。不过,至少有一点Schneider和Wu是一致的,就是不能仅仅通过[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]很小来得到[math]\displaystyle{ P\left(H_{1}|D\right) }[/math]很大的结论,必须同时考虑[math]\displaystyle{ P\left(D|H_{1}\right), P\left(H_{1}\right), P\left(D|H_{0}\right), P\left(H_{0}\right) }[/math]

如果要把这个工作变成一个计算工具包的话,那么,原则上,只需要在原来的假设检验工具包的基础上做两次相反的假设检验,[math]\displaystyle{ P\left(H_{0}|D\right) }[/math][math]\displaystyle{ P\left(H_{1}|D\right) }[/math],就相当于得到了[math]\displaystyle{ P\left(D|H_{1}\right), P\left(D|H_{0}\right) }[/math],接着在假设[math]\displaystyle{ P\left(H_{0}\right)\approx 0.5 \approx P\left(H_{1}\right) }[/math]的条件,只需要对比得到的[math]\displaystyle{ P\left(D|H_{1}\right), P\left(D|H_{0}\right) }[/math]就可以了。不过,很有可能[math]\displaystyle{ P\left(D|H_{1}\right) }[/math]的计算要比[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]的计算复杂很多。例如,[math]\displaystyle{ P\left(D|H_{1}\right) }[/math]表示两个样本来自于不同的分布,[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]表示两个样本来自于同一个分布的时候,前者就难以计算很多。

参考文献

  1. 1.0 1.1 Wu, Jinshan (2018), Is there an intrinsic logical error in null hypothesis significance tests? Commentary on: “null hypothesis significance tests. a mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations”, Wu, J. Scientometrics (2018) 115: 621. https://doi.org/10.1007/s11192-018-2656-3
  2. 2.0 2.1 2.2 Schneider, JW (2015), Null hypothesis significance tests. a mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations. SCIENTOMETRICS, 102:411-432.
  3. Schneider, JW (2018), NHST is still logically flawed, Scientometrics, https://link.springer.com/article/10.1007%2Fs11192-018-2655-4

本分类目前不含有任何页面或媒体文件。