分类:统计检验的逻辑
这是对我们最近的一个关于统计检验的工作[1]的总结。
[2]讨论了统计检验的通常做法的逻辑问题。
一般来说,在统计检验中,给定数据[math]\displaystyle{ D }[/math]之后,我们想知道某个结果[math]\displaystyle{ H_{1} }[/math]正确的可能性,也就是我们想算出来[math]\displaystyle{ P\left(H_{1}|D\right) }[/math]。但是,一般来说统计检验是倒过来的,也就是算出来已经知道某个结论的情况下,产生的这个数据会怎样,也就是[math]\displaystyle{ P\left(D|H_{0}\right) }[/math],然后,认为当[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]很小的时候,[math]\displaystyle{ P\left(H_{1}|D\right) }[/math]很大。这确实是有问题的。
靠Bayesian公式,[math]\displaystyle{ P\left(H_{1}|D\right)=\frac{P\left(D|H_{1}\right)P\left(H_{1}\right)}{P\left(D|H_{1}\right)P\left(H_{1}\right)+P\left(D|H_{0}\right)P\left(H_{0}\right)} }[/math]。其中[math]\displaystyle{ H_{0} }[/math]就是[math]\displaystyle{ H_{1} }[/math]的否命题。于是,这个时候,我们需要以下四个量的值:[math]\displaystyle{ P\left(D|H_{1}\right), P\left(H_{1}\right), P\left(D|H_{0}\right), P\left(H_{0}\right) }[/math]。如果我们的统计检验是考虑了所有的这四个量,然后再计算出来[math]\displaystyle{ P\left(H_{1}|D\right) }[/math],则是没有任何问题的。当然,根据实际情况,有可能[math]\displaystyle{ P\left(H_{1}\right), P\left(H_{0}\right) }[/math]可以认为差不多,于是忽略。但是[math]\displaystyle{ P\left(D|H_{1}\right), P\left(D|H_{0}\right) }[/math]都是要检验的。
可是,在大多数统计检验问题中,仅仅[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]是考察的目标。这确实是有问题的,正像[2]指出来的一样。但是,这仅仅表示统计检验的习惯用法有问题,不表示统计检验本身有逻辑问题。因此,[2]是没有理解背后的逻辑,所以,过头了。
当然,在[math]\displaystyle{ P\left(H_{0}\right)\approx 0.5 \approx P\left(H_{0}\right) }[/math]的条件下,我们可以仅仅对比[math]\displaystyle{ P\left(D|H_{1}\right) }[/math]和[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]。更进一步,在不是非常特殊的情况下,如果[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]很小很小,则我们可以猜测[math]\displaystyle{ P\left(H_{1}|D\right) }[/math]比较大(这时候实际上是假设[math]\displaystyle{ P\left(D|H_{0}\right)\ll P\left(D|H_{1}\right) }[/math],但是这个假设有时候不一定对:[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]很小很小的时候,[math]\displaystyle{ P\left(D|H_{1}\right) }[/math]同样可以很小很小,因此我们得不到[math]\displaystyle{ P\left(H_{1}|D\right) }[/math]比较大的结论),反之也然。但是,要知道,这两个通常的统计检验所用的猜测都是不严格的,有好几个假设的。
我们最近的工作[1]指出来了这个细致的区别。将来还会写下来一个R语言统计检验的扩展包,来补充通常的统计检验:也就是在可能的情况下,这四个概率都要算出来,然后给出来最后算出来的[math]\displaystyle{ P\left(H_{1}|D\right) }[/math]。
Schneider做了一个新的回复[3],说由于很多人不相信Bayesian公式,因此,上面的论证是不对的。确实,我承认如果Bayesian公式不允许使用,则假设检验是有问题的。但是,为什么要不允许使用Bayesian公式呢?Bayesian公式的基础只不过就是集合的并运算和概率的定义而已。不过,至少有一点Schneider和Wu是一致的,就是不能仅仅通过[math]\displaystyle{ P\left(D|H_{0}\right) }[/math]很小来得到[math]\displaystyle{ P\left(H_{1}|D\right) }[/math]很大的结论,必须同时考虑[math]\displaystyle{ P\left(D|H_{1}\right), P\left(H_{1}\right), P\left(D|H_{0}\right), P\left(H_{0}\right) }[/math]。
参考文献
- ↑ 1.0 1.1 Wu, Jinshan (2018), Is there an intrinsic logical error in null hypothesis significance tests? Commentary on: “null hypothesis significance tests. a mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations”, Scientometrics, https://link.springer.com/article/10.1007%2Fs11192-018-2656-3
- ↑ 2.0 2.1 2.2 Schneider, JW (2015), Null hypothesis significance tests. a mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations. SCIENTOMETRICS, 102:411-432.
- ↑ Schneider, JW (2018), NHST is still logically flawed, Scientometrics, https://link.springer.com/article/10.1007%2Fs11192-018-2655-4
本分类目前不含有任何页面或媒体文件。

