分类:非理性决策基本描述框架
决策和博弈理论的基本框架
一般来说,经典博弈论和经典决策理论假设经典概率论成立。经典概率论指的是,一个随机事件的多种可能的出现概率由概率分布函数(以离散变量为例)[math]\displaystyle{ \rho=\sum_{i}P_{i}\left|i\right\rangle\left\langle i\right| }[/math]描述,给定一个观测量[math]\displaystyle{ X=x_{i}\left|i\right\rangle\left\langle i\right| }[/math],则这个观测每次会得到一个[math]\displaystyle{ x_{i} }[/math]以及相应的随机事件的状态[math]\displaystyle{ i }[/math],如果重复多次测量则当次数[math]\displaystyle{ M }[/math]足够大的时候,[math]\displaystyle{ M\rightarrow \infty }[/math],其均值满足[math]\displaystyle{ \left\langle X\right\rangle \triangleq \frac{\sum_{i}x_{i}}{M} \rightarrow tr\left(\rho X\right)=\sum_{i}x_{i}P_{i} }[/math]。
在这个假设的基础上,决策问题可以看作是约束下的极值问题,博弈问题可以看作是在给定对方策略下的决策问题,其中对方策略本身按照完全理性的假设,是给定自己的决策下的对方的决策问题的解。通常我们会有一个目标函数,称为收益函数,例如决策问题的[math]\displaystyle{ X=\sum_{i}x_{i}\left|i\right\rangle\left\langle i\right| }[/math],或者博弈问题的[math]\displaystyle{ X=\sum_{ij}x_{ij}\left|ij\right\rangle\left\langle ij\right| }[/math]。按照经典概率论,则当一个决策者,或者一对决策者,采取策略[math]\displaystyle{ \rho^{1}=\sum_{i}P^{1}_{i}\left|i\right\rangle\left\langle i\right| }[/math],[math]\displaystyle{ \rho^{12}=\sum_{ij}P^{12}_{ij}\left|ij\right\rangle\left\langle ij\right|=\sum_{ij}P^{1}_{i}P^{2}_{j}\left|ij\right\rangle\left\langle ij\right| }[/math]的时候,其收益(对于完全理性人的决策和博弈理论,这个收益也被称为效用)为[math]\displaystyle{ u = tr\left(\rho X\right)=\sum_{i}x_{i}P_{i} }[/math],以及[math]\displaystyle{ u = tr\left(\rho^{12} X\right)=\sum_{ij}x_{ij}P^{1}_{i}P^{2}_{j} }[/math]。
于是,传统的决策和博弈理论就成了如何根据这个效用函数[math]\displaystyle{ u }[/math]以及相应的约束(没有写出来)来优化,求出来最优解,然后用这个最优解对应的策略当做对决策者行为的描述。为了以后描述问题方便,我们把有了效用函数之后,再通过求极值来解决问题的思路称为“效用函数最大化”。
一个理论框架的成立,需要通过实验来检验,是否在适当的现象的范围内,理论给出的结果和实验结果在误差范围相符。
研究问题
实际上,上面这个漂亮的决策和博弈的理论框架,很多时候不符合实验结果和实际观察。例如,在概率匹配现象中,决策者的决策显然和最优策略不同,见;在囚徒困境、最后通牒博弈中,实验者的行为也显然后上面的理论预测的博弈者行为有很大差别,见;博弈实验的结果已经展示了对上面这个“完全概率和条件概率的关系”的突破,见。研究者把这些理论和实验实践的偏离统一称为“非完全理性人”的决策。
因此,我们的研究问题是:是否能够构建一个非完全理性人的描述框架来描述上面这些行为。更进一步,如果说,我们仅仅需要改变效用函数的具体形式,仍然维持“效用函数最大化”,那这个理论跟传统决策和对策理论相比所做的修改就比较少。我们当然还可以突破“效用函数最大化”,那如果发现不突破的话理论模型就是描述不了实验,那就突破。但是,我们尽量先做最少量的修改。
解决方法:构建新的理论框架
下面,我们来尝试以下两种可能的模型。
修改效用函数,但是保持效用函数最大化
在这里,我们通过引入货币收益之外的因素、对收益的主观感受、对概率的主观感受,来构建新的决策和博弈的理论框架,例如下面的一个完全理性个体的标准模型以及五个非完全理性人决策的模型:
- 经典完全理性个体的决策理论,客观概率-客观货币收益:[math]\displaystyle{ u=\sum_{i}P_{i}x_{i} }[/math]
- 主观概率-客观货币收益:[math]\displaystyle{ u=\sum_{i} W\left[P_{i}\right]x_{i} }[/math]
- 客观概率-主观收益:[math]\displaystyle{ u=\sum_{i} P_{i}u\left(x_{i},o\right) }[/math]
- 主观概率-主观收益:[math]\displaystyle{ u=\sum_{i} W\left[P_{i}\right]u\left(x_{i},o\right) }[/math]
- 客观概率平均收益的主观衡量:[math]\displaystyle{ u=u\left(\sum_{i}P_{i}x_{i},o\right) }[/math]
- 主观概率平均收益的主观衡量:[math]\displaystyle{ u=u\left(\sum_{i}W\left[P_{i}\right]x_{i},o\right) }[/math]
当[math]\displaystyle{ W\left[P_{i}\right]=aP_{i}+b, u\left(x_{i},o\right)=u\left(x_{i}\right)=fx_{i}+g }[/math]都是线性函数的时候,所有的模型回到完全理性个体的标准模型。
于是,现在的研究问题就成了,能不能写下来适用于决策和博弈实验以及现象的[math]\displaystyle{ W\left[P_{i}\right], u\left(x_{i},o\right) }[/math],包含哪些[math]\displaystyle{ o }[/math]?
抛弃最大化,改成效用函数更大化
也就是说,决策的时候,我们不是寻找最优的,而是只能做到“更优的策略被选择的可能性更高”——这个我们叫做“更大化”的策略。例如,采用Boltzmann分布的形式,[math]\displaystyle{ P_{i}=\frac{e^{\beta u\left(x_{i},o\right)}}{\sum_{j} e^{\beta u\left(x_{j},o\right)}} }[/math]。其实,经济学家也已经提出了这个框架,例如博弈理论中的QRE(Quantal Response Equilibrium,随机反应均衡)。当然,可能还有其他的代替最优化的理论框架。
于是,研究问题就成了,如果我们允许主观概率和主观收益,以及非货币收益,并且允许用“更大化”代替“最大化”,是否我们就可以得到描述决策和博弈行为的实验结果的理论?如果可以,这些函数的具体形式,包含哪些变量,以及“更大化”的具体形式,都长什么样?
实验研究和实验结果
实验可以有几种不同的方式。
例如,在一个博弈实验中,给被试明确的信息“对家会采用某决策”,也就是[math]\displaystyle{ P\left(b\right)=1 }[/math],然后多次测量或者直接让被试估计出来得到[math]\displaystyle{ P\left(A|B=b\right) }[/math]。接着,在不给定[math]\displaystyle{ P\left(b\right) }[/math]信息的条件下,对同样的被试测量出来[math]\displaystyle{ P\left(A\right) }[/math]。最后检验一下“完全概率和条件概率的关系”[math]\displaystyle{ P\left(A\right)=\sum_{b}P\left(A|B=b\right)P\left(b\right) }[/math]是否成立。这个时候,经常会发现,这个没有给定[math]\displaystyle{ P\left(b\right) }[/math]信息条件下的[math]\displaystyle{ P\left(A\right) }[/math]的结果,无论[math]\displaystyle{ P\left(b\right) }[/math]取值为什么,“完全概率和条件概率的关系”都不成立。
例如,在一个博弈实验中,给被试明确的信息“对家会采用某决策”,也就是[math]\displaystyle{ P\left(b\right)=1 }[/math],然后多次测量或者直接让被试估计出来得到[math]\displaystyle{ P\left(A|B=b\right) }[/math]。接着,在不给定[math]\displaystyle{ P\left(b\right) }[/math]信息的条件下,让被试估计出来其信念中的[math]\displaystyle{ W\left[P\left(b\right)\right] }[/math],然后对被试测量出来[math]\displaystyle{ P\left(A\right) }[/math]。最后检验一下“完全概率和条件概率的关系”[math]\displaystyle{ P\left(A\right)=\sum_{b}P\left(A|B=b\right)W\left[P\left(b\right)\right] }[/math]是否成立。这个时候,也经常会发现,“完全概率和条件概率的关系”都不成立。
以上的前人的研究主要关注概率、主观概率、完全概率和条件概率的关系。更一般的包含主观收益平均和主观平均收益的研究还相当少,以后再整理。
可能的解释
那为什么?有一部分研究者[1]认为这写实验结果意味着经典概率论的逻辑框架对于描述博弈论不够用,应该扩展成为量子概率论,那里“完全概率和条件概率的关系”会多出来一项,[math]\displaystyle{ P\left(A\right)=\sum_{b}P\left(A|B=b\right)W\left[P\left(b\right)\right]+P }[/math]。至于多出来的那一项的具体形式可以有不同的数学模型。
还有一个可能,就是博弈者由于对概率认知的局限性,并没有按照“理性的”决策方式来思考。这个“完全概率和条件概率的关系”要求被试必须作如下思考:我想想,如果对家选取策略[math]\displaystyle{ b }[/math],我要怎么做,然后再估计出来对家大概以什么概率选取策略[math]\displaystyle{ b }[/math],合起来差不多就是“我”的策略。但是,很有可能被试在给定对家概率和不给定的条件下是两种思维方式。比如说,给定的时候,做接近理性的思考;不给定的时候,想反正我也估计不出来对家要做什么,我就随便选好了——而且这个随便选不仅仅是相当有把对家的多种可能选择都平均起来的结果,而是真的当做信息不足的问题,随便选。
如何做下一步工作
看看引导一下被试完全按照理性的思考来决策,结果会怎样?直接把这个结果上的矛盾扔给被试,看看被试如何解释?
为什么这个研究值得做
人类的实际的概率性决策行为用什么样的数学模型来描述,甚至将来真的引入量子博弈之后,人类的概率性决策行为如何描述,是一个非常重要的问题。另一方面,也是和概率决策的效用函数这个更加一般的主题联系在一起的。如果我们希望我们的理论模型还能够描述世界,则这是一个不能逃避的问题。
参考文献
- ↑ Moreira Catarina, Wichert Andreas, Quantum Probabilistic Models Revisited: The Case of Disjunction Effects in Cognition, Frontiers in Physics, 4, 26(2016). doi:10.3389/fphy.2016.00026 https://www.frontiersin.org/article/10.3389/fphy.2016.00026
引用错误:在<references>
中以“Shafir:disjunction”名字定义的<ref>
标签没有在先前的文字中使用。
引用错误:在<references>
中以“Crosson:disjunction”名字定义的<ref>
标签没有在先前的文字中使用。
引用错误:在<references>
中以“Li:disjunction”名字定义的<ref>
标签没有在先前的文字中使用。
本分类目前不含有任何页面或媒体文件。