囚徒困境悖论(Prisoner's dilemma)是1950年梅里尔·弗勒德、梅尔文·德雷希尔提出的相关困境的
理论。
悖论涵义
1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
若二人都互相检举(互相“背叛”),则二人同样判监2年。
用图表概述如下:
囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
若对方沉默、背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
悖论形式
整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境。
实验经济学常用这种博弈的一般形式分析各种
论题。以下是实现一般形式的其中一例:
有两个参与者和一个
庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在
庄家面前。文字面朝下排除了参与者知道对方选择的可能性1。然后,
庄家翻开两个参与者卡片,根据以下规则支付利益:
一人背叛、一人合作:背叛者得5分(背叛诱惑),合作者0分(受骗支付)。
二人都合作:各得3分(合作报酬)。
二人都背叛:各得1分(背叛惩罚)。
用支付矩阵表格展示支付如下(以红和蓝分别表示二参与者):
简单博弈获得的点数可以得出一些一般化的结论。
T、R、P、S符号表
若以T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付,以个人选择得分而言,可得出以下不等式。
T>R>P>S
(解:从5>3>1>0获得以上不等式)
若以整体获分而言,将得出以下不等式。
2R>T+S或2R>2P
(解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及单独背叛的共得5分,显然合作获分比背叛高。合作在团体而言是
支配性策略。)
而
重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。 以上理论是道格拉斯·霍夫施塔特创建的。
相关例子
政治学例子:军备竞赛
在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成都有损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。
经济学例子:关税战
两个国家,在关税上可以有以两个选择:
提高关税,以保护自己的商品。(背叛)
与对方达成关税协定,降低关税以利各自商品流通。(合作)
当一国因某些因素不遵守关税协定,而独自提高关税(背叛)时,另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(
重复博弈的结果是将发现共同合作利益最大。)
商业例子:广告战
商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。
两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。
此二公司可以有二选择:
互相达成协议,减少广告的开支。(合作)
增加广告开支,设法提升广告的质量,压倒对方。(背叛)
若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。
自行车赛例子
自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自行车赛中有以下情况:选手们在到终点前的路程常以大队伍(英文:Peloton)方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中。而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略。通常会发生这样的情况,大家起先都不愿意向前(共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力(共同合作),使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛)。而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力。