分类:概率匹配的决策机制

来自Big Physics
Jinshanw讨论 | 贡献2021年6月21日 (一) 13:04的版本 →‎研究问题


研究背景和问题

概率匹配实验(指的是[[概率匹配实验]])[1]就是给定一个色子,得到正面的几率是[math]\displaystyle{ p }[/math],得到反面的几率是[math]\displaystyle{ 1-p }[/math],问被试如果有[math]\displaystyle{ N }[/math]次机会来做预测(可以一次性做全部的预测,也可以每一次仅仅对下一次做预测),如果预测的答案和实际出现的正面或者反面相同,则获得一定量的钱。这时候,如何选择。前人的实验发现,在这个问题中,大多数人选择做概率匹配,也就是不是选择正面,而是看情况基本上做到[math]\displaystyle{ p }[/math]的比例的情况下猜测正面,[math]\displaystyle{ 1-p }[/math]的比例猜测反面。

在这个研究中,我们想通过概率匹配实验来找找概率决策的脑活动,有可能的话,进一步分成理解概率和做概率决策的两种不同的脑活动。

理解和做概率匹配实验决策的难度

我们先来说说,为什么被试这个实验会出现困难,都出现在什么地方。

我们先来说说完全理性的情况。我们先从一个更加一般的情况出发。记硬币正面的概率为[math]\displaystyle{ q }[/math],记决策者选择正面的几率为[math]\displaystyle{ p }[/math],当决策者的选择和实际出现的面相同并且是正面的时候,决策者获得的收益为[math]\displaystyle{ X_{1c} }[/math],不匹配的时候的收益为[math]\displaystyle{ X_{1w} }[/math],当决策者的选择和实际出现的面相同并且是反面的时候,决策者获得的收益为[math]\displaystyle{ X_{0c} }[/math],不匹配的时候的收益为[math]\displaystyle{ X_{0w} }[/math]。则,决策者的平均收益是[math]\displaystyle{ E\left(p\right)=qpX_{1c}+q\left(1-p\right)X_{1w}+\left(1-q\right)pX_{0w}+\left(1-q\right)\left(1-p\right)X_{0c} }[/math]

决策者能够决定的也就是其选择正面的几率[math]\displaystyle{ p }[/math],因此一个优秀的选择是对[math]\displaystyle{ E\left(p\right) }[/math]做优化,也就是求[math]\displaystyle{ \frac{d}{dp}E\left(p\right) }[/math],得到判断条件[math]\displaystyle{ C\left(p\right)=qX_{1c}-qX_{1w}+\left(1-q\right)X_{0w}-\left(1-q\right)X_{0c} }[/math]。当[math]\displaystyle{ X_{1w}=0=X_{0w} }[/math]的时候,我们有[math]\displaystyle{ C\left(p\right)=qX_{1c}-\left(1-q\right)X_{0c}=q\left(X_{1c}+X_{0c}\right)-X_{0c} }[/math]。进一步,当[math]\displaystyle{ X_{1c}=X=X_{0c} }[/math]的时候,我们有[math]\displaystyle{ C\left(p\right)=\left(2q-1\right)X }[/math](称为PMI,第一类概率匹配情形);当[math]\displaystyle{ p=0.5 }[/math]的时候,[math]\displaystyle{ C\left(p\right)=0.5\left(X_{1c}-X_{0c}\right) }[/math](称为PMII,第二类概率匹配情形)。

因此,对于完全理性的决策者(只关注平均收益,懂得概率独立性)来说,无论重复多少轮,对于PMI,选择那个概率大的;对于PMII,选择那个收益大的,而且一直这样选,不用关注前面已经出现的和猜测的情况。也就是[math]\displaystyle{ q\gt 0.5 }[/math]则一直选正面;当[math]\displaystyle{ q=0.5 }[/math]的时候,[math]\displaystyle{ X_{1c}\gt X_{0c} }[/math]则一直选正面。

就算对于PMI和PMII这两个简化以后的情形,我们看到,在这里实际上有两重概率:决策者选择正面和反面的概率,硬币出现正面和反面的概率,并且要明白这两个概率具有独立性(可以把概率乘起来)。

具体算的时候,可以先考虑决策者的概率,也就是下面的决策过程:假设决策者选择了正面,则在这个条件下,硬币出现正面的可能性是[math]\displaystyle{ q }[/math],这个时候能够赚[math]\displaystyle{ X_{1c} }[/math]的钱,如果硬币出现反面则不得钱,平均来说,收益是[math]\displaystyle{ qX_{1c} }[/math];接着决策者选择了反面,则在这个条件下,硬币出现反面的可能性是[math]\displaystyle{ \left(1-q\right) }[/math],这个时候能够赚[math]\displaystyle{ X_{0c} }[/math]的钱,如果硬币出现正面则不得钱,平均来说,收益是[math]\displaystyle{ \left(1-q\right)X_{0c} }[/math]

[math]\displaystyle{ X_{1c}=X_{0c} }[/math]的时候,对比两者的收益,得到,[math]\displaystyle{ q\gt 0.5 }[/math]则一直选正面,否则选反面。当[math]\displaystyle{ q=0.5 }[/math]的时候,对比两者的收益,得到,[math]\displaystyle{ X_{1c}\gt X_{0c} }[/math]则一直选正面,否则选反面。

具体算的时候,也可以先考虑硬币状态的概率,也就是下面的决策过程:假设硬币出现了正面,这个时候如果决策者选正面能够赚[math]\displaystyle{ X_{1c} }[/math]的钱,如果决策者选择反面则不得钱,因此决策者通过对比这两个收益,得到应该选正面;接着假设硬币出现了反面,这个时候如果决策者选反面能够赚[math]\displaystyle{ X_{0c} }[/math]的钱,如果选择正面则不得钱,因此决策者通过对比这两个收益,得到应该选反面。

在这里要注意,这两个思考过程,得到的结论看起来有冲突:先固定决策者选择的时候,我们得到和完全理性的计算相同的结论:收益相同是选概率大的,概率相同是选收益大的,但是,先固定硬币状态的思路下,由于没有再一次通过硬币正反面的概率把总结过算出来,得到的结论和完全理性的计算不同:一定要去凑跟硬币相同的一面,无论是PMI还是PMII。在这个思路下,决策者就会去想,既然这样,那么,硬币总有一定的几率会出现反面的,于是,我们也需要给这样的可能性留下获得收益的机会,于是,自然就需要做概率匹配。在这个意义下,“先固定硬币状态的思路”可以导致概率匹配。注意,这里一定程度上不破坏独立性,也就是说,决策者就算理解了独立性,但是在这个“先固定硬币状态的思路”下仍然会选择去做概率匹配——给另一种可能留下赚钱的机会。

小结:完全理性的计算,给出来一直选正面的答案,不管是PMI还是PMII;“先固定决策者选择的思路”给出来一直选正面的答案;“先固定硬币状态的思路”给出来概率匹配的答案,不管是PMI还是PMII。

顺便,为什么上面两个思路一个对(和完全理性计算的结果相同)一个错呢?因为决策者的决策变量就是自己的选择,因此,其应该对比的,也应该是两种选择下的收益,因此,只能采取“先固定决策者选择的思路”。

我们再来看看,其他思路下,决策者会是什么选择。

非序贯性独立性谬误:决策者不理解或者不相信每次硬币状态的独立性,认为既然两种可能都有概率,则在有限次(十次)的实验中,每个可能出现的频率也应该是大致和概率是匹配的。在此基础上,结合“先固定硬币状态的思路”(注意,在这里,这样的思路特别自然——本来就先肯定了两种可能都会出现了),则决策者就会做概率匹配,而不是一直选正面。顺便,这样的谬误实际上是可以通过学习概率论来解决的:概率定义在重复无穷多次的状态集合上,在任何一个有限次当中,很可能,每个状态出现的频率是偏离其概率的。我们也可以考虑研究一下通过“教育”是否可以改变其行为。

序贯性独立性谬误之赌徒谬误:考虑了实际出现正反面的时间序列之后,有的决策者会觉得,如果已经出现的某一面的次数比较多,则会增加另一面出现的概率。因此,根据前面的实际出现的结果,决策者会做相应的概率匹配。注意,这个谬误和上面的非序贯性独立性谬误不完全相同。在那里,决策者原则上不需要已经出现的状态的时间序列信息。

序贯性独立性谬误之热手效益、顺风球谬误:在球场上,很多时候,教练、球员、观众会觉得,当前的赢球状态会导致赢球的更大的可能性。于是,如果前面正面出现的多,则后续应该选正面,否则选反面。不过这个谬误和我们当前的实验没有关系——在这里,决策者完全知道硬币的正反面概率是给定的,不受用户选择影响的。

研究问题

有了这些概念,我们就可以准确地来描述我们的研究问题了:

  1. 在PMI和PMII概率测试中,一直选择正面的(以及做概率匹配)被试的比例是多少,两个实验中被试的选择是否具有相关性(在一个实验中一直选择正面是否在另一个实验中也一直选择正面,在一个实验中一直选择概率匹配是否在另一个实验中也一直选择概率匹配)
  2. 如果一定比例的被试选择了概率匹配,并且是以稳定的比例选择概率匹配(所以,可以考虑多轮实验),那么,其选择概率匹配的原因是什么,是不是上面的几种原因(“先固定硬币状态”、“非序贯性独立性谬误”、“赌徒谬误”)之一或者组合?
  3. 如果找到了原因,那么,这些原因是否有对应着的典型脑活动?例如,把一直选正面的被试的脑活动和概率匹配的作对比,把某种类型的原因的和另一种类型的作对比。


硬币的概率



没有概率的情况,简单一重概率的情况。

替换成实物来做实验。

实验设计

  1. 实物实验,用一个盒子里的两种颜色的球来做实验
  2. 用抽象语言描述的模型来做实验,一定要保证“实验被试相信硬币的概率是事先给定的,并且不受用户选择和用户信念的影响”。
  3. 改变一下[math]\displaystyle{ q }[/math]看看([math]\displaystyle{ q }[/math]换成其他数值,或者直接换成之前的[math]\displaystyle{ 1-q }[/math]的数值),是不是被试的行为做相应的改变,但是策略还是一样的。

下一步的工作

  1. 文献调研,看看针对这个实验以及类似的实验,是不是有类似的非理性定量指标已经提出来;顺便也看看一次做完[math]\displaystyle{ N }[/math]次预测和每一轮做一次预测的结果的不同
  2. 预实验
  3. 实验

神经经济学研究

是否在概率决策问题中,和,非概率决策问题中,人脑的活动就不一样,而且这个不同还可以探测出来,甚至培养出来?

例如,在概率匹配问题(一个0.7概率出现正面的硬币,被试来猜正反面,猜中得奖励)中,和另一个纯粹的无概率选择决策中,一个选a获得0.7元,选b获得0.3元,是不是前者会激活一个后者不激活特异脑区?

参考文献

  1. Shanks, D. R., Tunney, R. J., & McCarthy, J. D. (2002). A re‐examination of probability matching and rational choice. Journal of Behavioral Decision Making, 15(3), 233-250.

本分类目前不含有任何页面或媒体文件。