KMRW声誉模型,又称“四人帮”模型。克瑞普斯、米尔格罗姆、罗伯茨和威尔逊(Kreps,Milgrom,Roberts and Wilson,1982)的KMRW声誉模型证明,参与人对其他参与人支付函数或战略空间的
不完全信息对均衡结果有重要影响,合作行为在
有限次重复博弈中会出现,只要博弈重复次数足够长。
在
完全信息情况下,不论
博弈重复多少次,只要重复的次数是有限的,唯一的子博弈精炼
纳什均衡是每个参与人在每次博弈中选择静态均衡战略(假定
静态博弈的纳什均衡是唯一的),即有限次重复不可能导致参与人的合作行为。特别地,在有限次重复囚徒博弈中,每次都选择“坦白”是每个囚徒的最优战略。 这一结果似乎与人们的直观感觉不一致。阿克赛尔罗德(Axelrod,1981和1984年)的锦标赛实验结果表明,在200次有限次重复囚徒博弈中,合作行为频繁出现,而“针锋相对”战略是最稳健的战略。
“理什囚徒”只是对我们已经熟悉的“囚徒”及其行为的一个简单化概括,这里可以理解为机会主义者,或者非合作型参与人; “非理性囚徒”是对具有不同于我们熟悉的行为方式的另一类囚徒的概括,这里可以理解为讲义气重信誉的人,或者合作型参与人。
在T阶段重复囚徒博弈中,如果每个囚徒都有 的概率是非理性的(即只选择“针锋相对”或“冷酷战略”),如果T足够大,n那么存在一个 ,使得下列战略组合构成一个
精炼贝叶斯均衡:
只要博弈重复的次数足够长,参与人有足够的耐心(只要足够接近于1),即使(有关参与人类型的)小小的不确定性,也可能引起均衡结果的重大改变(很小的p就可以保证合作均衡的出现,但如果p=0,合作均衡不可能出现)。 当然,合作均衡的可能性依赖于我们有关非理性参与人行为的假定。比如,如果我们假定,不论对方选择什么,
非理性KWRW模型解开了有限重复博弈的悖论,但也带来了均衡的多重性问题。 弗登伯格和马司肯(1986年)证明,类似完全信息无限重复博弈的“
无名氏定理”在不完全信息有限重复博弈中也成立,只要博弈重复的次数足够长,参与人有足够的耐心,任何满足个人理性的可行支付向量,都可以作为精炼
贝叶斯均衡结果出现,不论p多么小。