分类:P值和样本大小的关系

来自Big Physics
Jinshanw讨论 | 贡献2022年5月15日 (日) 20:50的版本 →‎下一步工作
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)


问题背景

在有实验组和对照组的对比实验设计中,往往我们需要通过预实验来确定样本大小。而样本大小的确定通常可以通过分析预实验的数据,通过计算显著性和样本大小的关系,也就是p值和N的关系,画图,做延拓,来估计所需要的最小N值。

但是,是否存在着这样的情况,无论实验组和对照组的差别多么小,只要通过增加样本大小N,总是可以得到统计上显著的结果?如果有,那这个实验设计的思路,原则上有逻辑漏洞。

理论研究

假定我们的两组数据[math]\displaystyle{ \left(\left\{x^{a}_{i=1...N_{a}}\right\},\left\{x^{b}_{i=1...N_{b}}\right\}\right) }[/math]分别来自于两个正态分布[math]\displaystyle{ N(\mu^{a}, \sigma^{a}) }[/math][math]\displaystyle{ N(\mu^{b},\sigma^{b}) }[/math]。现在我们来从这两组数据估计出来这两个分布函数有差别的概率。其中一种定义有差别的方式是:从两个分布中随机各自取出来一个新的样本[math]\displaystyle{ \left(x^{a}_{*},x^{b}_{*}\right) }[/math],其中一个大于另一个的概率,[math]\displaystyle{ P\left(x^{a}_{*}\gt x^{b}_{*}\right)=P\left(x^{a}_{*}-x^{b}_{*}\gt 0\right)\gt p_{*} }[/math]

我们先在参数[math]\displaystyle{ \mu^{a}, \sigma^{a}, \mu^{b},\sigma^{b} }[/math]全都已知的条件下把这个公式推导出来,然后,再来解决如何从样本数据[math]\displaystyle{ \left(\left\{x^{a}_{i=1...N_{a}}\right\},\left\{x^{b}_{i=1...N_{b}}\right\}\right) }[/math]中估计出来这些参数的问题,以及估计出来以后如何更好地给出来[math]\displaystyle{ P\left(x^{a}_{*}-x^{b}_{*}\gt 0\right) }[/math]的问题。注意,后者由于估计出来的量[math]\displaystyle{ \mu^{a}, \sigma^{a}, \mu^{b},\sigma^{b} }[/math]都有误差,因此,会比直接代入以[math]\displaystyle{ \mu^{a}, \sigma^{a}, \mu^{b},\sigma^{b} }[/math]表达的公式要复杂一些。

概率论问题:从[math]\displaystyle{ \mu^{a}, \sigma^{a}, \mu^{b},\sigma^{b} }[/math]得到[math]\displaystyle{ P\left(x^{a}_{*}-x^{b}_{*}\gt 0\right) }[/math]

[math]\displaystyle{ X=x^{a}-x^{b} }[/math]的分布函数是[math]\displaystyle{ N(\mu^{a}-\mu^{b},\sqrt{\left(\sigma^{a}\right)^{2}+\left(\sigma^{b}\right)^{2}}) }[/math]。也就是说,只要这四个参数满足下面的条件,两个分布函数就有区别,

[math]\displaystyle{ \int_{0}^{\infty} d\xi \frac{1}{\sqrt{2\pi}\sqrt{\left(\sigma^{a}\right)^{2}+2\left(\sigma^{b}\right)^{2}}}e^{-\frac{\left(\xi-\left(\mu^{a}-\mu^{b}\right)\right)^{2}}{2\left(\sigma^{a}\right)^{2}+2\left(\sigma^{b}\right)^{2}}}\geq p_{*} }[/math].

这个概率实际上,由两个分布函数的均值和方差四个参数一起决定的。就算两个均值相差很大,但是方差也比较大的时候,两个分布函数重叠的地方特别多,则仍然这个概率会很小,不一定能够达到大于阈值[math]\displaystyle{ p_{*} }[/math]。参照通常的p值的语言,可以重新表述为

[math]\displaystyle{ d=1-\int_{0}^{\infty} d\xi \frac{1}{\sqrt{2\pi}\sqrt{\left(\sigma^{a}\right)^{2}+2\left(\sigma^{b}\right)^{2}}}e^{-\frac{\left(\xi-\left(\mu^{a}-\mu^{b}\right)\right)^{2}}{2\left(\sigma^{a}\right)^{2}+2\left(\sigma^{b}\right)^{2}}}=\int_{-\infty}^{0} d\xi \frac{1}{\sqrt{2\pi}\sqrt{\left(\sigma^{a}\right)^{2}+2\left(\sigma^{b}\right)^{2}}}e^{-\frac{\left(\xi-\left(\mu^{a}-\mu^{b}\right)\right)^{2}}{2\left(\sigma^{a}\right)^{2}+2\left(\sigma^{b}\right)^{2}}} }[/math].

也可以类似地讨论[math]\displaystyle{ X=\left|x^{a}-x^{b}\right| }[/math]的分布函数,然后把统计检验构建在这个分布函数之上,不过这里暂时不展开讨论。

顺便,从这个意义上,传统双样本t检验相当于计算的下面的概率(为了简单计,先把样本大小看作相同[math]\displaystyle{ N }[/math]

[math]\displaystyle{ p=\int_{-\infty}^{0} d\xi \frac{\sqrt{N}}{\sqrt{2\pi}\sqrt{\left(\sigma^{a}\right)^{2}+\left(\sigma^{b}\right)^{2}}}e^{-\frac{\left(\xi-\left(\mu^{a}-\mu^{b}\right)\right)^{2}}{\frac{2}{N}\left(\sigma^{a}\right)^{2}+\frac{2}{N}\left(\sigma^{b}\right)^{2}}} }[/math].

也就是说,相当于是从两个样本中一次性取出来(Boostrap,有放回的抽样)[math]\displaystyle{ N }[/math],求各自那组样本的平均,对比这个平均值,其中一个大于另一个概率[1]

Monte Carlo问题:从[math]\displaystyle{ \mu^{a}, \sigma^{a}, \mu^{b},\sigma^{b} }[/math]到样本数据

假设我们已知一个正态分布[math]\displaystyle{ N\left(\mu, \sigma\right) }[/math]我们来看看从中得到的大小为[math]\displaystyle{ N }[/math]的样本数据[math]\displaystyle{ \left\{x_{i=1...N}\right\} }[/math]的统计性质。

首先,

[math]\displaystyle{ \left\langle\bar{x}\right\rangle=\frac{1}{N}\sum_{i=1}^{N}\left\langle x_{i} \right\rangle=\mu }[/math]

也就是样本均值的均值等于原始分布函数的均值。注意,这里的[math]\displaystyle{ \left\langle \cdot \right\rangle }[/math]是系综平均,也就是如果生成这样的样本很多很多次例如L次(在L趋向无穷大的极限下),每次N个,然后对每一次得到的结果先求出来单次的量,接着做多次平均。

其次,

[math]\displaystyle{ \left\langle s^{2}_p \right\rangle=\left\langle \frac{1}{N}\sum_{i=1}^{N}\left(x_{i}-\bar{x}\right)^2 \right\rangle=\sigma^{2} }[/math]

也就是样本方差的均值等于原始分布函数的方差。

最后,我们计算一下样本均值的方差,也就是

[math]\displaystyle{ \sigma_{N}=\left\langle\bar{x}^2-\left\langle\bar{x}\right\rangle^2\right\rangle=\frac{1}{N}\sigma^2 }[/math]

也就是样本均值的方差是样本方差的[math]\displaystyle{ \frac{1}{N}\sigma^2 }[/math]

经过这个计算,我们一定要看到样本方差和样本均值的方差之间的差异和联系。前者是对整个样本来说的,后者是把每一次抽样以后的均值当作随机变量,考察这个随机变量的涨落得到的。这个涨落,在样本大小N越大的时候,越小。

统计学问题:从样本数据到[math]\displaystyle{ \mu^{a}, \sigma^{a}, \mu^{b},\sigma^{b} }[/math]

从样本数据[math]\displaystyle{ \left(\left\{x^{a}_{i=1...N_{a}}\right\},\left\{x^{b}_{i=1...N_{b}}\right\}\right) }[/math],通过极大似然估计(或者别的估计方法),我们可以得到参数值[math]\displaystyle{ \mu^{a}, \sigma^{a}, \mu^{b},\sigma^{b} }[/math]以及每个参数的估计误差,例如(先暂时写成一个[math]\displaystyle{ \sigma }[/math]的形式,如果需要转化成95%置信区间,则需要做相应转换),

[math]\displaystyle{ \mu^{a}=\bar{x}^{a}\pm \sigma_{N_{a}} = \bar{x}^{a}\pm \frac{1}{\sqrt{N_{a}}}s^{a}_{p} }[/math]

其中[math]\displaystyle{ \bar{x}^{a}=\frac{1}{N_{a}}\sum_{i=1}^{N_{a}}x^{a}_{i} }[/math][math]\displaystyle{ s^{a,2}_p=\frac{1}{N_{a}}\sum_{i=1}^{N_{a}}\left(x^{a}_{i}-\bar{x}\right)^2 }[/math],也被称为样本方差。注意这里的几个公式和上一节的系综平均公式很像,但是,它们意义很不相同。在这里,我们不需要引入系综平均。除非我们换一个思路,用Bootstrap方法来解决这个误差估计的问题,则需要从实际样本中产生多次抽样数据,于是刚好回到系综平均。注意,这里有个非常微妙的地方,参数[math]\displaystyle{ \mu^{a} }[/math]的估计误差不是直接就是样本方差[math]\displaystyle{ s^{a}_p }[/math],而是[math]\displaystyle{ \sigma_{N_{a}}=\frac{1}{\sqrt{N_{a}}}s^{a}_p }[/math],其额外还增加了一个[math]\displaystyle{ \frac{1}{\sqrt{N_{a}}} }[/math]的系数。这也是合理的,样本数量越多,对参数的估计就更准确。

对于参数[math]\displaystyle{ \sigma^{a} }[/math]我们有估计方式

[math]\displaystyle{ \sigma^{a,2}=\frac{1}{N_{a}}\sum_{i=1}^{N_{a}}\left(x^{a}_{i}-\bar{x}\right)^2=s^{a,2}_p }[/math].

这个参数的估计误差的公式就不再推导了,但是,类似可以得到。

对什么东西做假设检验?对比两个均值,还是两个分布

有了上面的理解,现在我们可以来回答统计检验的问题了。核心问题是,在一个统计检验里面,我们是希望对比两组样本背后的分布函数的均值,还是说对比两组样本背后的分布函数?

如果我们对比均值,则相当于我们在比较,[math]\displaystyle{ \mu^{a} }[/math][math]\displaystyle{ \mu^{b} }[/math]。于是,大概我们需要计算下面的量(假设a样本均值更大)然后看看这个量大于零的概率,

[math]\displaystyle{ \mu^{a}-\mu^{b}=\left(\bar{x}^{a}- \frac{1}{\sqrt{N_{a}}}s^{a}_{p}\right)-\left(\bar{x}^{b}+ \frac{1}{\sqrt{N_{b}}}s^{b}_{p}\right) }[/math],

[math]\displaystyle{ =\left(\bar{x}^{a}- \bar{x}^{b} \right)-\left(\frac{1}{\sqrt{N_{a}}}s^{a}_{p}+ \frac{1}{\sqrt{N_{b}}}s^{b}_{p}\right) }[/math].

于是,第一项和第二项的比例,决定了这个量大于零的概率,也就是说我们需要计算

[math]\displaystyle{ t=\frac{\left(\bar{x}^{a}- \bar{x}^{b} \right)}{\left(\frac{1}{\sqrt{N_{a}}}s^{a}_{p}+ \frac{1}{\sqrt{N_{b}}}s^{b}_{p}\right)} }[/math].

这正好就是传统的t检验的内容(除了样本方差计算的时候需要修正一下自由度这些细节)。

如果我们对比的是两个分布函数,则其实我们需要同时考虑[math]\displaystyle{ \mu^{a}, \sigma^{a}, \mu^{b},\sigma^{b} }[/math]。也就是把这四个参数都估计出来以后代入[math]\displaystyle{ P\left(x^{a}_{*}-x^{b}_{*}\gt 0\right) }[/math]的公式,计算出来分布函数有差异的概率。而由于[math]\displaystyle{ \sigma^{a},\sigma^{b} }[/math]不随着样本数量的改变而减小,因此,不存在任何不等于零的差别只要增加样本都会显著这回事。

和传统统计检验的联系

KS检验似乎是对比的分布函数,好像不会出现随着。ks检验实际上对比的是两个分布函数之间的差。因此,从逻辑上说,ks检验先从实际数据中拟合出来分布函数,然后,计算两个分布函数的最大区别。因此,增加样本量只能使得分布函数估计的更加准确,但是不会增加那个最大区别。这个结论需要做数值检验。

当然,也有可能,其实KS检验,也经过了人工调整,使得它其实检验的是分布函数的均值。因此,这需要数值实验来检验。

从正态分布的双样本t检验的角度来看,由于其检验目标就是两个分布的均值是否有区别,因此,统计显著性会随着样本数量的增加而提高。这个结论需要做数值检验。

理论分析得到的解决方式

明确指出来,到底是对比的两个分布函数的均值,还是对比的两个分布函数。然后,如果检验的是均值的差异,用传统的统计检验,并且必然存在着样本量和统计显著性的平庸关系。如果检验的是分布函数的差异,则我们提出新(是不是新的,需要做文献调研和请教统计学专家)的检验方法,用我们的方法,并且,显著性和样本量之间不存在着这个增加样本量必然导致显著性增加的平庸关系。

另外,对比均值的检验,如果看作是分布函数,则正好是把大小为[math]\displaystyle{ N }[/math]的样本当作一个整体看,得到的分布函数(也就是看大小为[math]\displaystyle{ N }[/math]的样本均值的分布函数)和对这个函数的统计检验结果[1]

数值实验

做一下数值实验,看看针对对比均值的统计检验怎么做(传统上就是),针对分布函数的统计检验怎么做(可能也已经有了,也可以按照上面的理论分析自己发明),结果是否根理论分析一致——对于均值的检验统计显著性随着样本增加而增加,对于分布函数检验统计显著性没有和样本直接相关(由于增加样本会使得分布函数估计更准确,因此,显著性也会和样本数量有关系,但是,不应该正好是[math]\displaystyle{ \frac{1}{\sqrt{N}} }[/math]的关系)。

使用MATLAB开展数值检验

Figure PN.jpg

(吴金闪注:下次用R或者Python,或者SageMath来完成,不要用Matlab。另外,你这图其实不太对,我用R算出来,整体看起来(除了一些跳动涨落)就是[math]\displaystyle{ p\sim 1/\sqrt{N} }[/math]的,和理论完全相符。你这里不太相符。)

   clc; clear;
   ES = [0, 0.01, 0.2, 0.3]; % set 4 effect size
   for ef = 1:length(ES) % simulate for each effect size
       EffectSize = ES(ef);
       
       for n = 1:1000 % simulate starting from n = 1 to 10000
           G1 = rand(n,1) + EffectSize; % sample from the normal distribution and add effect size
           G2 = rand(n,1);
           [~,ttest2_p,~,~] = ttest2(G1,G2); % two sample t test
           [~,kstest2_p,~] = kstest2(G1,G2); % two sample ks test
           data0(n,:) = [n, ttest2_p,kstest2_p]; % collect data
       end
       data = log(data0); % log n and log ps 
       N = data(:,1); 
      ttest2_P = data(:,2);
       kstest2_P = data(:,3);
   
       % plot p-n for t test
       subplot(length(ES),2,1+2*(ef-1))
       plot(N, ttest2_P)
       title(['Effect size = ',num2str(EffectSize),'; Two sample t test'])
       ylabel('Significance (p)')
       xlabel('Sample size (n)')
       set(gca,'XTick',0:max(N)/4:max(N))
       set(gca,'XTicklabel',round(exp(0:max(N)/4:max(N))))
       Ytick = [min(ttest2_P(~isinf(ttest2_P))),log(0.05)];
       set(gca,'YTick',Ytick)
       set(gca,'YTicklabel',round(exp(Ytick),3))
       % plot p-n for ks test
       subplot(length(ES),2,2+2*(ef-1))
       plot(N, kstest2_P)
       title(['Effect size = ',num2str(EffectSize),'; Two sample ks test'])
       ylabel('Significance (p)')
       xlabel('Sample size (n)')
       set(gca,'XTick',0:max(N)/4:max(N))
       set(gca,'XTicklabel',round(exp(0:max(N)/4:max(N))))
       Ytick = [min(kstest2_P(~isinf(kstest2_P))),log(0.05)];
       set(gca,'YTick',Ytick)
       set(gca,'YTicklabel',round(exp(Ytick),3))
   end
   saveas(gcf,'Figure_PN.tif')

下一步工作

  1. 文献调研,看一下,这个问题其他人是否已经回答过,是否已经有好的答案。

文献调研完毕。已经有研究[2] [3]解决这个问题,统计量正好就是计算两个分布的差,名称叫做D-Value。到此,问题解决,以后统计检验用D-Value。另外,这论文发不了了,前人已经发明这个D-Value。

  1. D-value的计算:
    1. 基于估计出来的分布函数计算:
      1. 从每一组样本中得到经验分布函数,[math]\displaystyle{ f^{a}\left(x^{a}\right), f^{b}\left(x^{b}\right) }[/math]
      2. 得到[math]\displaystyle{ D=1-\int_{-\infty}^{\infty}dx^{a}\int_{-\infty}^{\infty}dx^{b}f^{a}\left(x^{a}\right)f^{b}\left(x^{b}\right)\theta\left(x^{a}-x^{b}\right) }[/math]。这就是随机从[math]\displaystyle{ f^{a}\left(x^{a}\right) }[/math][math]\displaystyle{ f^{b}\left(x^{b}\right) }[/math]中分别取出一个样本,得到[math]\displaystyle{ x^{a}\leq x^{b} }[/math]的概率。这个概率越小,例如小于0.05,则拒绝原假设,认为[math]\displaystyle{ x^{a}\gt x^{b} }[/math]更可能出现。
    2. 用Bootstrap直接从样本计算:
      1. 对原是样本做L次有放回的重抽样,每次取P对(从两个分布中各自取出一个组成一对),计算这P对中,第一组更大的次数Q,对L个[math]\displaystyle{ \frac{Q}{P} }[/math]求出均值和方差。
      2. 由于从样本到经验分布会引起误差,从经验分布到积分计算也会引起误差,这个误差也要放到p值里面。正好Bootstrap给出了这个误差。看一下如何把这个误差放到统计检验里面。
    3. 确定D-value的推荐阈值。用正态分布,调整均值差和标准差之和的比例[math]\displaystyle{ r=\frac{\mu^{a}-\mu^{b}}{\sqrt{\sigma^{a,2}+\sigma^{b.2}}} }[/math],画分布函数图,看相应的d-value,选择一个合适的阈值,看看[math]\displaystyle{ \alpha }[/math][math]\displaystyle{ \beta }[/math]风险。
      1. 从L个[math]\displaystyle{ D^{(l)}=\frac{Q^{(l)}}{P^{(l)}} }[/math]得到D-Value的分布函数[math]\displaystyle{ \rho(D;n,L) }[/math]。其中[math]\displaystyle{ n,L }[/math]分别数原始数据的大小(暂时假设两个样本一样大)和Bootstrap抽样的次数。
      2. 确定阈值[math]\displaystyle{ D^{*} }[/math]的方式:检验得到阳性[math]\displaystyle{ D=P(x^{a}\gt x^{b})\gt D^{*} }[/math]但是实际上[math]\displaystyle{ x^{a}\lt x^{b} }[/math]的概率是,[math]\displaystyle{ P(x^{a}\lt x^{b}|D\gt D^{*})=\int_{D^{*}}^{1} (1-\xi)\rho(\xi;n,L)d\xi }[/math];检验得到阴性[math]\displaystyle{ 0.5\lt D=P(x^{a}\gt x^{b})\lt D^{*} }[/math](如果[math]\displaystyle{ D\lt 0.5 }[/math]则应该反过来检验上[math]\displaystyle{ x^{a}\gt x^{b} }[/math],因此不会出现这个假阴性的错误)但是实际上[math]\displaystyle{ x^{a}\gt x^{b} }[/math]的概率是,[math]\displaystyle{ P(x^{a}\gt x^{b}|D\lt D^{*})=\int^{D^{*}}_{0.5} \xi\rho(\xi;n,L)d\xi }[/math]
      3. 作为一个粗略地估计,假设[math]\displaystyle{ \rho(D;n,L)=1 }[/math]是一个均匀分布,这时候假阳性概率[math]\displaystyle{ P(x^{a}\lt x^{b}|D\gt D^{*})=\frac{(1-D^{*})^2}{2} }[/math],假阴性概率[math]\displaystyle{ P(x^{a}\gt x^{b}|D\lt D^{*})=\frac{D^{*,2}-0.25}{2} }[/math]。通过这个非常粗糙的估计(实际分布肯定会比均匀分布更加集中,而且应该是集中在右侧),取[math]\displaystyle{ D^{*}\approx 0.6\sim 0.7 }[/math]是一个合适的区间。当然,具体取多少,需要按照得到的[math]\displaystyle{ \rho(D;n,L) }[/math]来计算。
  2. 把D-value计算编成R函数,提交到函数库,供大家使用。
  3. 整理某个领域,例如医学、生物学、教育学、心理学、脑科学等,的双样本检验的论文,统计出来多少在用p值,多少在用D值,如果改过来,多少还能通过假设检验。发表一篇综述文章,正好推广一下这个D值,也把我们的正确理解分享给学术界:这不是要解决p值的问题,而是,本来我们就可以要么检验均值的差别,要么检验分布的差别。而且,后者才是通常统计检验的目的。
  4. 基于D值,重新推出脑科学的显著性检验方法,例如,是否还需要全脑校正之类的。

另一种解决方式

[4]提供了另一种解决方式:先按照样本均值([math]\displaystyle{ \mu^{a}, \mu^{b} }[/math])和样本标准差([math]\displaystyle{ \sigma^{a}, \sigma^{b} }[/math]),注意这里不是估计出来的均值的标准差([math]\displaystyle{ \frac{\mu^{a}}{\sqrt{N^{a}}}, \frac{\mu^{b}}{\sqrt{N^{b}}} }[/math]),先计算出来一个样本大小参考值([math]\displaystyle{ N^{a}_{*}, N^{b}_{*} }[/math]),

[math]\displaystyle{ N^{a}_{*}=\kappa N^{b}_{*}, N^b_{*}=\left(1+\frac{1}{\kappa}\right) \left(\sigma\frac{z_{1-\alpha/2}+z_{1-\beta}}{\mu^a-\mu^b}\right)^2 }[/math]

其中[math]\displaystyle{ z_{1-\alpha/2},z_{1-\beta} }[/math]就是正态分布对应的在[math]\displaystyle{ 1-\alpha/2, 1-\beta }[/math]分位的[math]\displaystyle{ z }[/math]值。这里的[math]\displaystyle{ \sigma=\sigma^{a}=\sigma^{b} }[/math]

接着,有了这个参考大小之后,去看实际的大小和这个样本大小的关系,如果在实际样本都大于这个参考大小,也就是

[math]\displaystyle{ N^{a}\geq N^{a}_{*}, N^{b}\geq N^{b}_{*}, p\geq p_{*}=0.05 }[/math]

则认为检验不通过。如果

[math]\displaystyle{ N^{a}\leq N^{a}_{*}, N^{b}\leq N^{b}_{*}, p\leq p_{*}=0.05 }[/math]

则认为检验通过。其他情况都不能得到结论。

这样来处理的话,在检验两个分布函数的均值的意义下,也是合理的。但是,仍然,假设检验本来的意义是检验两个分布函数的差异。因此,还是应该尽可能地采用d值的定义。

当然,还有一些细节有待处理:原始分布函数不是正态的时候如何估计样本大小,方差不相等的时候怎么办,等等。

参考文献

  1. 1.0 1.1 Zhesi Shen, Liying Yang, Zengru Di, Jinshan Wu. Large enough sample size to rank two groups of data reliably according to their means. Scientometrics 118: 653-671 (2019). https://doi.org/10.1007/s11192-018-2995-0
  2. Acion L, Peterson JJ, Temple S, Arndt S. Probabilistic index: an intuitive non-parametric approach to measuring the size of treatment effects. Stat Med. 2006 Feb 28;25(4):591-602. doi: 10.1002/sim.2256. Erratum in: Stat Med. 2007 Aug 15;26(18):3524. PMID: 16143965.
  3. Eugene Demidenko, The p-Value You Can’t Buy, The American Statistician, 70(1), 33-38(2016), DOI: 10.1080/00031305.2015.1069760
  4. Chow S, Shao J, Wang H. 2008. Sample Size Calculations in Clinical Research. 2nd Ed. Chapman & Hall/CRC Biostatistics Series. page 58.

经验总结

  1. 我为什么要来思考这问题:因为前两天有一个脑科学实验需要我估算一下被试人数。我一算发现,靠,我一直可以增加人数的话,总是能通过统计检验啊。这逼我开始思考统计检验的底层问题。
  2. 我是怎么思考的:对于一个统计学问题,永远走三条路,概率论的角度,monte carlo的角度,统计学的角度。然后,理论分析永远和数值实验数值计算结合。
  3. 文献是提出问题和解决问题之后看的,用来看看这个问题、答案、解决方式、解决方式背后的思维,是否具有发表的价值。
  4. 我为什么做这个总结:跳出具体问题,把思维方式拿出来供大家参考。
    1. 其中,第一条就是第一性原理,任何东西,看起来有问题,去走到底层。
    2. 第二条相当于运用了统计学的学科知识框架。
    3. 第三条是跳出来走到足够上层的思维。
  5. 交流协作很有用,这个问题的解决在文献上、定义辨析、数值实验上得到了吴俊杰、林博、家松老师、小思、朱家辉、赵崇臻等多位同事和学生的帮助,还有金蛟老师的帮助,就我自己来完成这些,那会慢很多很多。
  6. 顺便,对这个总结的总结:每次做完一件事情做思维上的梳理。如果将来发现具体地方做错了,进一步梳理为什么错。把自己狠狠地拿来分析。

本分类目前不含有任何页面或媒体文件。