人人理性却得不到最好的结果——囚徒困境
有一天,一位富翁在家中被杀,财物被盗。警方抓到两个犯罪嫌疑人——斯卡尔菲丝和那库尔斯。但他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离,以防止他们串供或结成攻守同盟,并分别跟他们讲清了他们的处境和面临的选择:如果他们两人中有一人认罪,则坦白者立即释放而另一人将判8年徒刑;如果两人都坦白认罪,则他们将被各判5年监禁;当然,若两人都拒不认罪,因警察手上缺乏证据,则他们会被处以较轻的妨碍公务罪,各判1年徒刑。
两个囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?就个人的理性选择而言,检举背叛对方所判刑期,总比沉默要来得短。试设想困境中两名理性囚徒会如何做出选择:
若对方沉默,背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能判较短的刑期,所以也会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑5年。
这就是博弈论中经典的“囚徒困境”。囚徒困境(PrisonDilemma)是博弈论的非零和博弈中极具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
单次发生的囚徒困境,和多次重复的囚徒困境结果不一样。
在重复的囚徒困境中,博弈被反复地进行,因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。
囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释)。但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。
如同博弈论的其他模型一样,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己的意愿选择策略。
【知识链接】斗鸡博弈
试想有两人狭路相逢,每人有两个行动选择:一是退下来,一是进攻。如果一方退下来,而对方没有退下来,对方获得胜利,这人就很丢面子;如果对方也退下来,双方则打个平手;如果自己没退下来,而对方退下来,自己则胜利,对方则失败;如果两人都前进,那么两败俱伤。因此,对每个人来说,最好的结果是,对方退下来,而自己不退。
经济学巨星和他的伟大成就——纳什与纳什均衡
猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口会落下食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃一点残羹。假设踩动踏板就会落下10个单位的猪食,那么如果是小猪踩的,大猪就会吃光10个单位;如果大猪踩的,那么小猪可能吃到4个单位,大猪可能吃6个单位。
现在问:“两只猪各会采取什么策略?”
若大猪选择去踩踏板,则小猪的策略是:若选择与其同时去踩踏板,则得1个单位;若等待,则得4个单位。所以,小猪选择等待。
若大猪选择等待,则小猪的最佳选择还是等待。
所以,不管大猪怎样,小猪都选择等待。
大猪的最佳选择是去踩踏板。
反正受罪的都是大猪,小猪等着就行。
这就是有名的“智猪博弈”。它反映在经济社会中的各个方面,比如富人与穷人修路架桥,富人车多朋友多,只好出钱修路架桥,而穷人就跟着享受这种福利。
“纳什均衡”的创立者约翰·纳什的名字是因为那部获奥斯卡奖的影片《美丽心灵》才被大家了解的。这个被精神分裂症困扰了30多年的天才曾被很多学术奖项和机构排斥在门外,他的诺贝尔奖得来的更是艰难。他在20世纪80年代中期即出现在候选人的名单当中,却因为两派意见相差太大而被搁置了近10年。1994年,他终于在投票中以微弱多数通过,获得当年的诺贝尔经济学奖。
纳什的研究奠定了现代非合作博弈论的基石,后来的博弈论研究基本上都是沿着这条主线展开的。然而,纳什的发现却遭到冯·诺依曼的断然否定,在此之前他还受到爱因斯坦的冷遇。但是骨子里挑战权威的本性,使纳什坚持了自己的观点,终成一代大师。他对非合作博弈的最重要贡献是阐明了包含任意人数局中人和任意偏好的一种通用解概念,也就是不限于两人零和博弈,该解概念就是“纳什均衡”。
在经济生活中,纳什均衡其实就在我们身边。每逢周末节假日是超市人最多的时候,假如你怀抱着一堆东西站在收银台旁边一队长长的队伍的最后边,你是准备抱着这堆东西找个最短的队来排,还是就近找个队排?
在这里我们假设超市里的每个人都有一个理性的预期——尽快的离开超市。因此所有的队都会一样长,你用不着费劲的去找最短的队。购物者只要看到旁边的队人少,就会很快排进较短的队中,如此一来较短的队也变长了,一直持续到两个队人数差不多。相邻的两个队是这样,同理,所有的队都会变得人数差不多。所以,还是就近选择最好。
由此可见,均衡是指一种均势的状态,在经济生活中,是各方参与者在理性预期的指导下综合博弈的结果。假如我们理解了其中的奥妙,生活就不会平添许多无谓的烦恼。
【知识链接】占优策略
在企业各自的策略集中,如果存在一个与其他竞争对手可能采取的策略无关的最优选择,则称其为占优策略,与之相对的其他策略则为劣势策略,就是指无论竞争对手如何反应都属于本企业最佳选择的竞争策略。在公司的商务竞争过程中,具有占优策略的一方无疑拥有明显的优势,处于竞争中的主动地位。
不可不知道的知识——共同知识
一个村庄里有100对夫妻,他们都是地道的逻辑学家。
但这个村里有一些奇特的风俗:每天晚上,村里的男人们都将点起篝火,绕圈围坐举行会议,议题是谈论自己的妻子。在会议开始时,如果一个男人有理由相信他的妻子对他总是忠贞的,那么他就在会议上当众赞扬她的美德。如果在会议之前的任何时间,只要他发现他妻子不贞的证据,那他就会在会议上悲鸣怯哭,并企求神灵严厉地惩罚她。再则,如果一个妻子曾有不贞,那她和她的情人会立即告知村里除她丈夫之外所有的已婚男人。这个风俗虽然十分奇怪,但是人人遵守。
事实上,每个妻子都已对丈夫不忠。于是每个丈夫都知道除自己妻子之外其他人的妻子都是不贞的女子,因而每个晚上的会议上每个男人都赞美自己的妻子。这种状况持续了很多年,直到有一天来了一位传教士。传教士参加了篝火会议,并听到每个男人都在赞美自己的妻子,他站起来走到围坐圆圈的中心,大声地提醒说:“这个村子里有一个妻子已经不贞了。”
在此后的99个晚上,丈夫们继续赞美各自的妻子,但在第100个晚上,他们全都悲鸣怯哭,并企求神灵严惩自己的妻子。
这是一个有趣的推理过程:由于这个村里的每个男人都知道另外的99个女人对自己的丈夫不忠,当传教士说“至少有一个妻子不贞了”,由此并不能必然推出这个“不贞”的女人是自己的妻子,因为他知道还有99个女人对自己的丈夫不忠。
于是这样的推理持续了99天,前99天每个丈夫不能确切怀疑到自己的妻子。而当第100天的时候,如果还没有人恸哭,那表明所有的女人都忠于自己的丈夫,而这显然与“至少有一个妻子不贞”的事实相悖。于是,每个男人都可确定地推理出来自己的妻子已经红杏出墙,于是,总体的推论结果便是:这100个妻子都出轨了。
应该说,传教士对“至少有一个妻子不贞了”这个事实的宣布,似乎并没有增加这些男人对村里女人不忠行为的知识,他们其实都知道这个事实。但为什么100天后他们都伤心欲绝呢?根源还在于共同知识的作用。
传教士的宣布使得村子里的男人的知识结构发生了变化,本来“至少一个妻子不贞了”对每个男人都是知识,但却不是共同知识,而传教士的宣布使得这个事实成为大家的“共同知识”。
共同知识的概念最初由逻辑学家李维斯提出的。对一个事件来说,如果所有博弈当事人对该事件都有了解,并且所有当事人都知道其他当事人也知道这一事件,那么该事件就是共同知识。
在生活中,共同知识起着一种不可或缺的作用,只不过多数时候我们并没有留心而已。举例来说,小王决定做一个体检,在经历抽血、B超等多方位检查后,发现有一项“屈光不正”需要去眼科诊疗。花了8元钱的挂号费后,根据指引去做光学检验,但仔细一看,原来就是配眼镜的地方。原来,“屈光不正”就是近视眼!“屈光不正”是医学工作者的共同知识,但小王却并不清楚这样的知识,以至让自己多花冤枉钱。
由此可以看出,没有共同知识的博弈,会给整个社会无端增加许多交易成本。比如你去买菜,肯定知道猪肉比白菜贵,不过这是最浅显的“共同知识”。其实,这类知识无处不在。对于我们而言,多掌握一些“共同知识”,对于生活具有重要的意义。
【知识链接】静态博弈
参与者同时采取行动,或者尽管参与者行动的采取有先后顺序,但后行动的人不知道先采取行动的人采取的是什么行动。
让威胁发挥效力——威胁与可信度
明朝人况钟从小吏提拔为郎官,由于杨士奇、杨溥、杨荣的推荐,做了苏州知州。皇帝召他到朝堂,赐给他皇帝自己签署的文书,授予他不待上奏、自行处置事务的权力。
他刚到苏州,管事人拿着公事案卷来上呈,他不问下吏对事情处理得是否得当,便判个“可以”。这样,下吏们便藐视他,认为他没有能力。通判赵某千方百计地欺凌况钟,他也只是嗯嗯而已。
一个月以后,况钟令手下人准备好香烛,把掌管礼仪的礼生也叫来,所属官员全都聚集起来。况钟对大家说:“有一封皇帝的诏书没有来得及向大家宣布,今天就来宣布这道诏谕。”当官员们听到诏书中有“所属官员如做不法之事,况钟有权自己直接捉拿审问”这一句话的时候,全都震惊了。
宣读诏书的礼仪结束后,况钟升堂,召来了赵某,依照赵某的罪行严厉处罚了他。自此,下属中的那些不法之徒再也不敢胡来了。
由此可以看出,适当的威慑是非常重要的。实际上博弈论中的威胁就是对不肯合作的人进行惩罚的一种回应规则。威胁既有强迫性的威胁,比如恐怖分子劫持一架飞机,其确立的回应规则是加入他的要求不能得到满足,全体乘客都将死于非命。一般而言,威胁都是在策略选择之前做出的,因此在接受到对方的威胁时首先必须考虑其可信度问题。
假如通过威胁来影响对方的行动,就必须让自己的威胁不超过必要的范围。因此,在博弈中,一个大小恰当的威胁,应该是大到足以奏效,而又小到足以令人信服。如果威胁大而不当,对方难以置信,而自己又不能说到做到,最终不能起到威胁的效果。
博弈的参与者发出威胁的时候,首先可能认为威胁必须足以吓阻或者强迫对方的地步。接下来才考虑可信度,即让对方相信,假如他不肯从命,一定会受到相应的损失或惩罚。假如对方知道反抗的下场,并且感到害怕,他就会乖乖就范。
但是,我们往往不会遇到这种理想状况。首先,发出威胁的行动本身就可能代价不菲。其次,一个大而不当的威胁即便当真实践了,也可能产生相反的作用。因此可以说,发出有效的威胁必须具备非凡的智慧,我们来看一下女高音歌唱家玛·迪梅普莱是如何威胁那些私闯园林的人们。