分类:概率匹配的决策机制

来自Big Physics


研究背景和问题

概率匹配实验(指的是[[概率匹配实验]])[1]就是给定一个色子,得到正面的几率是[math]\displaystyle{ p }[/math],得到反面的几率是[math]\displaystyle{ 1-p }[/math],问被试如果有[math]\displaystyle{ N }[/math]次机会来做预测(可以一次性做全部的预测,也可以每一次仅仅对下一次做预测),如果预测的答案和实际出现的正面或者反面相同,则获得一定量的钱。这时候,如何选择。前人的实验发现,在这个问题中,大多数人选择做概率匹配,也就是不是选择正面,而是看情况基本上做到[math]\displaystyle{ p }[/math]的比例的情况下猜测正面,[math]\displaystyle{ 1-p }[/math]的比例猜测反面。

在这个研究中,我们想通过概率匹配实验来找找概率决策的脑活动,有可能的话,进一步分成理解概率和做概率决策的两种不同的脑活动。

理解和做概率匹配实验决策的难度

我们先来说说,为什么被试这个实验会出现困难,都出现在什么地方。

我们先来说说完全理性的情况。我们先从一个更加一般的情况出发。记硬币正面的概率为[math]\displaystyle{ q }[/math],记决策者选择正面的几率为[math]\displaystyle{ p }[/math],当决策者的选择和实际出现的面相同并且是正面的时候,决策者获得的收益为[math]\displaystyle{ X_{1c} }[/math],不匹配的时候的收益为[math]\displaystyle{ X_{1w} }[/math],当决策者的选择和实际出现的面相同并且是反面的时候,决策者获得的收益为[math]\displaystyle{ X_{0c} }[/math],不匹配的时候的收益为[math]\displaystyle{ X_{0w} }[/math]。则,决策者的平均收益是[math]\displaystyle{ E\left(p\right)=qpX_{1c}+q\left(1-p\right)X_{1w}+\left(1-q\right)pX_{0w}+\left(1-q\right)\left(1-p\right)X_{0c} }[/math]

决策者能够决定的也就是其选择正面的几率[math]\displaystyle{ p }[/math],因此一个优秀的选择是对[math]\displaystyle{ E\left(p\right) }[/math]做优化,也就是求[math]\displaystyle{ \frac{d}{dp}E\left(p\right) }[/math],得到判断条件[math]\displaystyle{ C\left(p\right)=qX_{1c}-qX_{1w}+\left(1-q\right)X_{0w}-\left(1-q\right)X_{0c} }[/math]。当[math]\displaystyle{ X_{1w}=0=X_{0w} }[/math]的时候,我们有[math]\displaystyle{ C\left(p\right)=qX_{1c}-\left(1-q\right)X_{0c}=q\left(X_{1c}+X_{0c}\right)-X_{0c} }[/math]。进一步,当[math]\displaystyle{ X_{1c}=X=X_{0c} }[/math]的时候,我们有[math]\displaystyle{ C\left(p\right)=\left(2q-1\right)X }[/math](称为PMI,第一类概率匹配情形);当[math]\displaystyle{ p=0.5 }[/math]的时候,[math]\displaystyle{ C\left(p\right)=0.5\left(X_{1c}-X_{0c}\right) }[/math](称为PMII,第二类概率匹配情形)。

因此,对于完全理性的决策者(只关注平均收益,懂得概率独立性)来说,无论重复多少轮,对于PMI,选择那个概率大的;对于PMII,选择那个收益大的,而且一直这样选,不用关注前面已经出现的和猜测的情况。也就是[math]\displaystyle{ q\gt 0.5 }[/math]则一直选正面;当[math]\displaystyle{ q=0.5 }[/math]的时候,[math]\displaystyle{ X_{1c}\gt X_{0c} }[/math]则一直选正面。

就算对于PMI和PMII这两个简化以后的情形,我们看到,在这里实际上有两重概率:决策者选择正面和反面的概率,硬币出现正面和反面的概率,并且要明白这两个概率具有独立性(可以把概率乘起来)。

具体算的时候,可以先考虑决策者的概率,也就是下面的决策过程:假设决策者选择了正面,则在这个条件下,硬币出现正面的可能性是[math]\displaystyle{ q }[/math],这个时候能够赚[math]\displaystyle{ X_{1c} }[/math]的钱,如果硬币出现反面则不得钱,平均来说,收益是[math]\displaystyle{ qX_{1c} }[/math];接着决策者选择了反面,则在这个条件下,硬币出现反面的可能性是[math]\displaystyle{ \left(1-q\right) }[/math],这个时候能够赚[math]\displaystyle{ X_{0c} }[/math]的钱,如果硬币出现正面则不得钱,平均来说,收益是[math]\displaystyle{ \left(1-q\right)X_{0c} }[/math]

[math]\displaystyle{ X_{1c}=X_{0c} }[/math]的时候,对比两者的收益,得到,[math]\displaystyle{ q\gt 0.5 }[/math]则一直选正面,否则选反面。当[math]\displaystyle{ q=0.5 }[/math]的时候,对比两者的收益,得到,[math]\displaystyle{ X_{1c}\gt X_{0c} }[/math]则一直选正面,否则选反面。

具体算的时候,也可以先考虑硬币状态的概率,也就是下面的决策过程:假设硬币出现了正面,这个时候如果决策者选正面能够赚[math]\displaystyle{ X_{1c} }[/math]的钱,如果决策者选择反面则不得钱,因此决策者通过对比这两个收益,得到应该选正面;接着假设硬币出现了反面,这个时候如果决策者选反面能够赚[math]\displaystyle{ X_{0c} }[/math]的钱,如果选择正面则不得钱,因此决策者通过对比这两个收益,得到应该选反面。

在这里要注意,这两个思考过程,得到的结论看起来有冲突:先固定决策者选择的时候,我们得到和完全理性的计算相同的结论:收益相同是选概率大的,概率相同是选收益大的,但是,先固定硬币状态的思路下,由于没有再一次通过硬币正反面的概率把总结过算出来,得到的结论和完全理性的计算不同:一定要去凑跟硬币相同的一面,无论是PMI还是PMII。在这个思路下,决策者就会去想,既然这样,那么,硬币总有一定的几率会出现反面的,于是,我们也需要给这样的可能性留下获得收益的机会,于是,自然就需要做概率匹配。在这个意义下,“先固定硬币状态的思路”可以导致概率匹配。注意,这里一定程度上不破坏独立性,也就是说,决策者就算理解了独立性,但是在这个“先固定硬币状态的思路”下仍然会选择去做概率匹配——给另一种可能留下赚钱的机会。

小结:完全理性的计算,给出来一直选正面的答案,不管是PMI还是PMII;“先固定决策者选择的思路”给出来一直选正面的答案;“先固定硬币状态的思路”给出来概率匹配的答案,不管是PMI还是PMII。

顺便,为什么上面两个思路一个对(和完全理性计算的结果相同)一个错呢?因为决策者的决策变量就是自己的选择,因此,其应该对比的,也应该是两种选择下的收益,因此,只能采取“先固定决策者选择的思路”。

我们再来看看,其他思路下,决策者会是什么选择。

非序贯独立性谬误:决策者不理解或者不相信每次硬币状态的独立性,认为既然两种可能都有概率,则在有限次(十次)的实验中,每个可能出现的频率也应该是大致和概率是匹配的。在此基础上,结合“先固定硬币状态的思路”(注意,在这里,这样的思路特别自然——本来就先肯定了两种可能都会出现了),则决策者就会做概率匹配,而不是一直选正面。顺便,这样的谬误实际上是可以通过学习概率论来解决的:概率定义在重复无穷多次的状态集合上,在任何一个有限次当中,很可能,每个状态出现的频率是偏离其概率的。我们也可以考虑研究一下通过“教育”是否可以改变其行为。

序贯独立性谬误之赌徒谬误:考虑了实际出现正反面的时间序列之后,有的决策者会觉得,如果已经出现的某一面的次数比较多,则会增加另一面出现的概率。因此,根据前面的实际出现的结果,决策者会做相应的概率匹配。注意,这个谬误和上面的非序贯性独立性谬误不完全相同。在那里,决策者原则上不需要已经出现的状态的时间序列信息。

序贯独立性谬误之热手效益、顺风球谬误:在球场上,很多时候,教练、球员、观众会觉得,当前的赢球状态会导致赢球的更大的可能性。于是,如果前面正面出现的多,则后续应该选正面,否则选反面。不过这个谬误和我们当前的实验没有关系——在这里,决策者完全知道硬币的正反面概率是给定的,不受用户选择影响的。



硬币的概率



没有概率的情况,简单一重概率的情况。

替换成实物来做实验。

实验设计

  1. 对每一个被试,延长实验轮数,来得到更多的数据点,可以对每一个个体做一个特征和特征的稳定性的度量。例如,做50轮(?在被试还严肃对待和思考的前提下,越长越好,需要做预实验,看看是否尝到一定程度,行为模式发生了定性改变,例如随便猜了,或者维持了很长时间不选固定行动的人忽然变成了固定行动的了)。当然,当被试数据还是不够多的时候,按照某种行为特征对被试做分组也是可以接受的。
  2. 改变一下[math]\displaystyle{ q }[/math]看看([math]\displaystyle{ q }[/math]换成其他数值,或者直接换成之前的[math]\displaystyle{ 1-q }[/math]的数值),是不是被试的行为做相应的改变,但是策略还是一样的。

下一步的工作

  1. 文献调研,看看针对这个实验以及类似的实验,是不是有类似的非理性定量指标已经提出来;顺便也看看一次做完[math]\displaystyle{ N }[/math]次预测和每一轮做一次预测的结果的不同
  2. 预实验
  3. 实验

神经经济学研究

是否在概率决策问题中,和,非概率决策问题中,人脑的活动就不一样,而且这个不同还可以探测出来,甚至培养出来?

例如,在概率匹配问题(一个0.7概率出现正面的硬币,被试来猜正反面,猜中得奖励)中,和另一个纯粹的无概率选择决策中,一个选a获得0.7元,选b获得0.3元,是不是前者会激活一个后者不激活特异脑区?

参考文献

  1. Shanks, D. R., Tunney, R. J., & McCarthy, J. D. (2002). A re‐examination of probability matching and rational choice. Journal of Behavioral Decision Making, 15(3), 233-250.

本分类目前不含有任何页面或媒体文件。