博弈论 game theory (Don Ross)

首次发表于 1997 年 1 月 25 日,实质性修订于 2023 年 9 月 3 日。

博弈论是研究经济主体相互作用选择如何产生与这些主体的偏好(或效用)相关的结果的学科,其中所讨论的结果可能没有任何一个主体的意图。对于非专家来说,除非解释并且在一些例子中展示了每个斜体字和短语,否则这个陈述的意义将不清楚。这将是本文的主要内容。然而,首先,我们提供一些历史和哲学背景,以激发读者对即将展开的技术工作的兴趣。


1. Philosophical and Historical Motivation

经济学家、社会科学家和生物学家所熟知的博弈论,是由约翰·冯·诺伊曼和奥斯卡·摩根斯特恩(1944 年)首次进行了一般数学形式的阐述。由于后面将要讨论的原因,他们形式化框架中的局限性最初使得该理论仅适用于特殊和有限的条件下。随着过去 70 年间该框架的深化和泛化,这种情况已经发生了戏剧性的变化,我们将在接下来的内容中进行探讨。改进工作仍在进行中,我们将在本文末尾回顾一些发展前沿上的突出问题。然而,至少自 20 世纪 70 年代末以来,可以有信心地说,每当分析者面对一个情境,其中一个代理人的最佳行动(对她而言)取决于对一个或多个其他代理人会做什么的预期,而其他代理人的最佳行动(对他们而言)同样取决于对她的预期时,博弈论就成为分析者工具箱中最重要和有用的工具。

尽管博弈论自 1944 年以来才被系统地进行了数学和逻辑上的阐述,但博弈论的洞察力可以追溯到古代评论家那里。例如,在柏拉图的两篇著作《拉凯斯》和《饮宴篇》中,苏格拉底回忆了一段来自德利乌姆之战的情节,一些评论家可能(可能是以错误的年代顺序)解释为涉及以下情况。考虑一个站在前线的士兵,与他的战友一起等待击退敌人的进攻。他可能会想到,如果防御很可能会成功,那么他个人的贡献并不是很重要。但如果他留下来,他就面临被杀或受伤的风险,而这似乎毫无意义。另一方面,如果敌人将赢得战斗,那么他死亡或受伤的几率仍然更高,而且现在显然毫无意义,因为阵线将被压倒。基于这种推理,士兵似乎最好无论谁将赢得战斗都逃跑。但如果所有士兵都这样推理——因为他们显然都处于相同的情况中——那么这肯定会导致战斗失败的结果。当然,这一点,因为我们作为分析者想到了,士兵们也可以想到。这是否给他们留下了留在岗位的理由?恰恰相反:士兵们越害怕战斗会失败,他们就越有动力摆脱危险。士兵们越相信战斗会胜利,而不需要任何特定个人的贡献,他们就越没有理由留下来战斗。如果每个士兵都预料到其他人会有这种推理,所有人都会很快陷入恐慌,他们惊恐的指挥官甚至在敌人发动进攻之前就会面临溃败。

在博弈论出现之前很久,它已经启发了一些实际的军事领导者并影响了他们的战略思维方式,从而使他们能够系统地思考这类问题。因此,西班牙征服者科尔特斯在墨西哥登陆时,由于他的小部队有充分的理由担心无法击退数量远远超过他们的阿兹特克人的进攻,他采取了一种措施来消除士兵们可能会考虑撤退的风险,他们烧毁了登陆船只。由于撤退已经在物理上变得不可能,西班牙士兵别无选择,只能选择坚守并战斗,而且要尽力战斗。从科尔特斯的角度来看,更好的是,他的行动对阿兹特克人的动机产生了令人泄气的影响。他特意将他的船只烧得非常明显,以便阿兹特克人能够确切地看到他所做的事情。然后,他们推理如下:任何一位指挥官如果能如此自信地毅然摧毁自己的谨慎选择,即使战斗对他来说进展不利,他一定有充分的理由持有如此极端的乐观主义态度。攻击一个有充分理由(不管具体是什么)确信自己不会失败的对手肯定是不明智的。因此,阿兹特克人撤退到周围的山丘,科尔特斯轻松获得了胜利。

这两种情况,即在德利乌姆和科尔特斯的操纵下,具有共同而有趣的潜在逻辑。请注意,士兵们的撤退动机并不仅仅或主要是基于他们对战斗危险的理性评估和自身利益的考虑。相反,他们通过意识到对他们来说合理的行动取决于其他人将会做出什么行动,并且所有其他人也能注意到这一点,从而找到了逃跑的充分理由。即使是非常勇敢的士兵,也可能宁愿逃跑,而不是孤注一掷地试图阻止即将到来的潮水。因此,我们可以想象,在敌人行动之前,一个全体成员都勇敢的军队以最快的速度逃离。如果士兵们真的很勇敢,那么这肯定不是他们中任何人想要的结果;每个人都希望所有人都坚守并战斗。因此,我们在这里面临的情况是,许多个体理性决策过程的相互作用(每个士兵一个过程)产生了一个没有任何人打算的结果。(许多军队试图避免这个问题,就像科尔特斯所做的那样。由于他们通常无法使撤退在物理上变得不可能,他们会使其在经济上变得不合理:在大部分历史上,处决逃兵是标准的军事做法。在这种情况下,坚守并战斗是每个士兵的个体理性行动,因为逃跑的预期成本至少与留下的成本相当高。)

另一个引发这种推理序列的经典来源可在莎士比亚的《亨利五世》中找到。在阿金库尔战役期间,亨利决定屠杀他的法国俘虏,当着敌人的面,并使他的部下感到惊讶,他们认为这种行为违背了道德品格。亨利给出的理由都暗示了非战略性的考虑:他担心俘虏可能会逃脱并威胁他的地位。然而,一个博弈论者可能会为他提供补充的战略(以及类似的谨慎,尽管也许不是道德上的)理由。他自己的部队观察到俘虏已被杀害,并观察到敌人也看到了这一点。因此,他们知道如果他们不获胜,将会在敌人手中等待他们的命运。比喻而言,他们的退路已被切断。俘虏的屠杀很有可能向双方的士兵发出了信号,从而改变了他们的激励方式,有利于英国取得胜利的前景。

这些例子似乎只对那些发现自己处于残酷竞争情境中的人有关。也许,有人会认为,这对于将军、政客、黑手党成员、体育教练以及其他工作涉及对他人进行战略操纵的人来说很重要,但哲学家只应该谴责其不道德性。然而,这样的结论将是非常仓促的。然而,对于现代政治哲学而言,统治激励、战略互动和结果之间关系的逻辑的研究自古以来就是至关重要的,即使在没有人明确给这种逻辑命名之前的几个世纪。哲学家与社会科学家一样,需要能够系统地表达和建模的不仅是他们认为人们在规范上应该做的事情,还有人们在互动情境中经常实际做的事情。

《利维坦》被视为现代政治哲学的奠基之作,这是一部开始对国家功能和合法性以及其对个人自由的限制进行持续分析的文本。Hobbes 推理的核心可以直截了当地表述如下。对所有人来说,最好的情况是每个人都可以自由地按照自己的意愿行事。 (作为一种心理或意识形态问题,人们可能同意也可能不同意这一点,但这是 Hobbes 的假设。)通常,这样自由的人们会希望相互合作,以实施一个单独行动的个人无法完成的项目。但是,如果周围有任何不道德或无道德的行为者,他们会注意到他们的利益可能至少有时通过获得合作的好处而不予以回报来得到最好的满足。例如,假设你同意帮助我建造我的房子,作为回报,我答应帮助你建造你的房子。在我的房子建好之后,我可以简单地违背我的承诺使你的劳动对我来说是免费的。然后,我意识到,如果这样做会让你没有房子,你就会有动机拿走我的房子。这将让我不断害怕你,并迫使我花费宝贵的时间和资源来保护自己。我可以通过抢先一步并在第一次机会时杀死你来最大程度地减少这些成本。当然,你可以预料到我所有的这些推理,因此有充分的理由试图先下手为强。由于我可以预料到你的这些推理,我对你的最初恐惧并不是偏执的;你对我的恐惧也不是。事实上,我们两个都不需要不道德才能引发这种相互推理的链条;我们只需要认为对交易进行欺骗的可能性存在。一旦任何一个人的头脑中产生了一丝怀疑,由于害怕被先发制人的后果而产生的激励很快就会在双方都变得压倒性。如果我们两个中的任何一个拥有对方可能想要的任何资源,这种致命的逻辑就会在我们甚至想象我们能够达成互相帮助建造房子的交易之前就已经生效。在这些情况下,至少有时狭隘自私的行为者在自己的行动中反复未能获得合作的好处,而是陷入了“人人自卫战”的状态,用 Hobbes 的话来说。在这种情况下,正如他生动而著名地表达的那样,人类的生活将是“孤独、贫穷、肮脏、野蛮和短暂”。

Hobbes 提出的解决这一问题的方案是暴政。人们可以雇佣一个代理人——政府——他们的工作是惩罚任何违背承诺的人。只要受到的惩罚足够严厉,违背承诺的成本就会超过遵守承诺的成本。这里的逻辑与军队威胁要射击逃兵时使用的逻辑是相同的。如果所有人都知道这些激励对大多数其他人都是有效的,那么合作不仅是可能的,而且可以成为预期的规范,以至于人人自卫战变成了普遍和平。

Hobbes 将这一论点的逻辑推到了一个非常强烈的结论,认为这不仅意味着一个有权力和能力强制合作的政府,而且意味着一个“不可分割”的政府,其中单一统治者的任意意志必须对所有人施加绝对义务。很少有当代政治理论家认为 Hobbes 通过这一结论的推理步骤既合理又有效。然而,在这里讨论这些问题将使我们远离我们的主题,陷入契约政治哲学的细节之中。在当前背景下重要的是,这些细节实际上在当代辩论中得到了深入研究,涉及到对问题的复杂解释,运用了现代博弈论的资源(例如,Hampton 1986)。此外,Hobbes 最基本的观点是,政府的强制权威和实践的根本正当性在于人们自身需要保护自己免受博弈论中所谓的“社会困境”的侵害,这一观点被许多政治理论家所接受,如果不是大多数。请注意,Hobbes 并没有主张暴政本身是一种可取的事物。他的论证结构是,战略互动的逻辑只能导致两种一般的政治结果:暴政和无政府状态。明智的行动者会选择暴政作为两害相权衡的较小者。

雅典士兵、科尔特斯和 Hobbes 的政治行为者的推理具有共同的逻辑,这个逻辑源于他们的处境。在每种情况下,对于行动者实现他们所期望的结果最重要的环境因素是其他行动者对他们策略的预期和可能的反应。在参数化地对待被动世界和非参数化地对待试图预测这些行动的世界之间的区别是根本的。如果你想把一块石头踢下山,你只需要关心石头的质量与你的力量之间的关系,它与支撑表面的结合程度,石头另一侧地面的坡度,以及碰撞对你的脚的预期影响。所有这些变量的值都与你的计划和意图无关,因为石头没有自己的利益,也不采取任何行动来帮助或阻挠你。相比之下,如果你想把一个人踢下山,除非那个人失去意识、被束缚或以其他方式失去行动能力,否则你很可能不会成功,除非你能够隐藏你的计划,直到他为时已晚,无法采取回避或阻止行动。此外,他的可能反应应该会给你带来成本,你应该明智地考虑这一点。最后,他的反应的相对概率将取决于他对你对他的反应的可能反应的预期。(考虑到你们中的一个或两个人是否都持有武器,或者其中一个人是否比另一个人更强壮,或者其中一个人是否是另一个人的上司,这将对你们两个人的推理产生什么样的影响。)与第二种情况(踢人而不是踢石头)相关的逻辑问题通常更加复杂,一个简单的假设性例子将说明这一点。

假设你想要穿过一条有三座桥梁的河流(假设无法游泳、涉水或划船穿过)。第一座桥被认为是安全的,没有障碍物;如果你试图从那里过河,你会成功。第二座桥位于一个有时会有大石块掉落的悬崖下面。第三座桥上有致命的眼镜蛇。现在假设你希望按照过河点的优先顺序对这三座桥进行排列。除非你从冒险中获得积极的乐趣——这在不违反任何经济学家对理性的概念的情况下是可能的(这是我们稍后在本文中讨论的一个复杂问题)——否则你在这里的决策问题是直截了当的。显然,第一座桥是最好的,因为它最安全。要对其他两座桥进行排列,你需要了解它们相对危险程度的信息。如果你能够研究一段时间的石块掉落频率和眼镜蛇的活动,你可能能够计算出在第二座桥被石块砸中的概率为 10%,在第三座桥被眼镜蛇咬伤的概率为 20%。你在这里的推理是严格参数化的,因为石块和眼镜蛇都没有试图影响你的行动,例如,因为它们知道你在研究它们而隐藏它们的典型行为模式。在这里很明显你应该做什么:从安全的桥过河。现在让我们稍微复杂化一下情况。假设有石块的桥就在你面前,而安全的桥则需要艰难的一天徒步上游。你在这里的决策情况稍微复杂一些,但仍然是严格参数化的。你必须决定长途徒步的代价是否值得换取被石块击中的 10%的几率。然而,这是你唯一需要决定的事情,你成功过河的概率完全取决于你自己;环境对你的计划不感兴趣。

然而,如果我们现在通过添加一个非参数化的因素来复杂化情况,情况就变得更具挑战性了。假设你是某种逃亡者,而在河的另一边等待的是持枪的追捕者。我们假设只有当她等在你试图穿过的桥上时,她才会抓住并射杀你;否则,你将逃脱。当你通过选择桥梁来进行推理时,你会意识到她就在那边试图预测你的推理。选择立即走安全的桥似乎是一个错误,因为那正是她会期待你去的地方,你被杀的几率将变为百分之百。所以也许你应该冒险选择石块,因为这个几率要好得多。但是等等...如果你能得出这个结论,那么你的追捕者,她和你一样了解情况,也能预料到你会得出这个结论,如果你躲过了石块,她将在那里等待你。所以也许你必须冒险选择眼镜蛇;这是她最不会期望的。但是,那样的话...如果她期望你会期望她最不会期望这个,那么她将最期望这个。你意识到这个困境是普遍存在的:你必须做你的追捕者最不会期望的事情;但是无论你最期望她最不会期望什么,她都会最期望那个。你似乎陷入了无法决策的困境。但是在这里稍微安慰你的是,在河的另一边,你的追捕者也陷入了完全相同的困境,无法决定在哪座桥等待,因为一旦她想象承诺选择一座桥,她会注意到如果她能找到一个最好的理由选择一座桥,你就能预料到同样的理由然后避开她。

我们从经验中知道,在这种情况下,人们通常不会无休止地站在原地犹豫不决。正如我们将在后面看到的,每个参与者都有一个独特的最佳解决方案可供选择。然而,直到 20 世纪 40 年代,哲学家和经济学家都不知道如何在数学上找到这个解决方案。因此,经济学家不得不将非参数影响视为参数影响的复杂性。这可能会让读者感到奇怪,因为正如我们所举的过河问题的例子所示,非参数特征通常是决策问题的基本特征。博弈论相对较晚进入这个领域的部分原因在于经济学家过去关注的问题。亚当·斯密和大卫·里卡多等古典经济学家主要关注的问题是,非常大的市场(整个国家)中的经济主体如何相互作用以实现自身的最大货币财富。斯密的基本观点是,通过首先区分潜在贡献,然后自由寻求互利的交易,效率可以最大化,这一观点在 20 世纪得到了数学验证。然而,这一事实的证明仅适用于“完全竞争”的条件下,即当个人或公司面临无需进入或退出市场的成本、没有规模经济,并且没有任何行动对其他经济主体的福祉产生意外副作用时。经济学家始终认识到,这一假设集仅仅是为了分析目的而进行的理想化,而不是任何人可以尝试(或应该希望尝试)建立的可能状态。但是直到 20 世纪 70 年代末,博弈论的数学成熟,经济学家不得不希望市场越接近完全竞争,效率就越高。然而,从总体上讲,这种希望在数学上或逻辑上都无法得到证明;事实上,作为严格的概括,这一假设在 20 世纪 50 年代就被证明是错误的。

这篇文章不涉及经济学的基础,但了解完全竞争市场的起源和范围对于理解博弈论非常重要。因为经济主体在市场上没有进入成本,他们会在任何给定的市场中开店,直到竞争将所有利润推向零。这意味着,如果生产成本是固定的,需求是外生的,那么经济主体在试图最大化成本和收入之间的差异时,就没有关于生产多少的选择。这些生产水平可以分别确定给每个经济主体,因此没有人需要关注其他人在做什么;每个经济主体将其对手视为环境的被动特征。另一种可以应用古典经济分析而无需借助博弈论的情况是垄断面对许多顾客的情况。在这种情况下,只要没有顾客拥有足够大的需求份额来施加战略影响力,非参数考虑因素就会消失,公司的任务只是确定价格和生产数量的组合,以实现利润最大化。然而,完全竞争和垄断竞争都是非常特殊和不寻常的市场安排。因此,在博弈论出现之前,经济学家在可以直接应用其模型的情况下受到严格限制。

哲学家与经济学家一样,对于福利最大化的条件和技术有着专业的兴趣。此外,哲学家对行动的逻辑合理性有着特殊关注,而行动通常是通过参考其预期结果来进行合理化的。(道德哲学中的一种传统,即功利主义,基于这样一种观念:所有具有道德意义的行动都最好通过这种方式来合理化。)在非参数方面相关的地方,如果没有博弈论,这两个问题都难以分析。我们将通过参考最著名的(尽管不是最典型的)博弈,即所谓的囚徒困境,以及其他更典型的博弈,很快证明这一点。在这样做的过程中,我们需要介绍、定义和说明博弈论的基本要素和技术。

2. 博弈论的基本要素和假设

2.1 效用

根据定义,经济主体是具有偏好的实体。博弈论家、经济学家和研究实际选择的哲学家们通过一个抽象概念来描述这些偏好,称之为效用。效用指的是主体从事件中获得的主观福利或主观福利变化在某个特定尺度上的排名。在这里,我们所指的“福利”是指世界状态与主体对所涉及状态的评价之间的相对一致性的某种规范指标,这种评价是通过参照某种背景框架来进行的。例如,我们可以通过参照人均收入来评估国家(我们可以将其作为某些目的的代理人)的相对福利,我们可以通过参照动物的预期进化适应度来评估动物的相对福利,以预测和解释其行为倾向。对于人类来说,在经济学和博弈论的应用中,通常是通过参照他们自己的内隐或外显评价来评估他们的相对福利。这就是为什么我们在前面提到了主观福利。考虑一个热爱泡菜但讨厌洋葱味道的人。可以说,她与世界状态相关联的效用更高,如果其他条件相同,她消费的泡菜比洋葱多,而不是洋葱比泡菜多。这类例子表明,“效用”表示主观心理满足的度量,这也是经济学家和受杰里米·边沁功利主义影响的哲学家最初对该概念的解释方式。然而,20 世纪初的经济学家越来越清楚地意识到,他们主要关注的是市场上的边际需求递减属性,而不管这是由已满足的个体消费者还是其他因素产生的。在 20 世纪 30 年代,经济学家的这种动机与行为主义和激进经验主义在心理学和科学哲学中的主导地位相契合。行为主义者和激进经验主义者反对理论上使用“心理满足商数”等不可观察实体。因此,智力氛围对经济学家保罗·萨缪尔森(1938 年)的努力持开放态度,他重新定义了效用,使其成为一个纯粹的技术概念,而不是根植于投机心理学的概念。自从萨缪尔森的重新定义在 20 世纪 50 年代成为标准以来,当我们说一个经济主体行为是为了最大化其效用时,我们所指的“效用”就是指代理人的行为表明她一贯地采取行动以使其更有可能实现的东西。如果你觉得这看起来是循环论证,那么没错:遵循萨缪尔森的理论的理论家们将“代理人行为是为了最大化他们的效用”这一陈述视为一个重言式,其中“(经济)代理人”是指任何能够准确描述为以最大化效用函数为目标行动的实体,“行动”是指从一组可能的选择中选择最大化效用的行动,而“效用函数”则是经济主体最大化的东西。与科学理论基础中的其他重言式一样,这种相互关联的(递归)定义系统之所以有用,不是因为它本身有用,而是因为它有助于确定我们的研究背景。

虽然上世纪 30 年代的行为主义已经被广泛关注认知过程所取代,但许多理论家仍然遵循塞缪尔森的理解效用的方式,因为他们认为博弈论应该适用于任何类型的参与者,包括人、熊、蜜蜂、公司或国家,而不仅仅是具有人类思维的参与者。当这些理论家说参与者行动是为了最大化他们的效用时,他们希望这成为参与者定义的一部分,而不是关于可能的内在状态和动机的经验性论断。塞缪尔森通过他经典论文中引入的“揭示偏好理论(RPT)”来定义效用的概念(Samuelson (1938)),满足了这一要求。

将博弈论解释为揭示偏好理论的经济学家和其他人不应将其视为对某些有血有肉的行为者(如实际人员)动机的经验性描述。相反,他们应将博弈论视为数学体系的一部分,用于对那些始终从互斥行动集中选择元素的实体进行建模,从而产生选择模式,考虑到一定的随机性和噪声,可以统计地建模为效用函数的最大化。根据这种解释,博弈论不能被任何经验观察所证伪,因为它首先不是一种经验理论。当然,观察和经验可能会导致持这种解释的人得出结论,即博弈论在描述实际人类行为方面帮助有限。第二次翻译:

一些其他理论家对博弈论的观点有不同理解。他们认为博弈论提供了对实际人类战略推理过程的解释。为了使这一观念适用,我们必须假设,至少有时,代理人之所以在非参数设置中采取某些行动,是因为博弈论逻辑推荐某些行动作为“理性”的行动。这种对博弈论的理解融入了规范方面,因为“理性”被视为代理人至少普遍希望拥有的一种属性。关于博弈论可能用途的这两种非常一般的思考方式与效用最大化的言辞解释是相容的。然而,从工作中的博弈论理论家的角度来看,这种哲学上的差异并非无谓。正如我们将在后面的章节中看到的那样,那些希望使用博弈论来解释战略推理而不仅仅是战略行为的人,面临一些特殊的哲学和实际问题。

由于博弈论是一种形式建模技术,我们必须有一种设备来以数学术语思考效用最大化。这种设备被称为效用函数。我们将通过序数效用函数的特殊情况介绍效用函数的一般概念。(稍后,我们将遇到包含更多信息的效用函数。)代理人的效用映射被称为“函数”,因为它将有序偏好映射到实数上。假设代理人 x 更喜欢捆绑包 a 而不是包 b,更喜欢包 b 而不是包 c。然后,我们将这些映射到一个数字列表上,其中函数将排名最高的捆绑映射到列表中最大的数字,将排名第二的捆绑映射到列表中的下一个最大的数字,依此类推。

捆绑 a≫3 捆绑 b≫2 捆绑 c≫1

此函数映射的唯一属性是顺序。数字的大小并不重要;也就是说,不能推断出 x 从捆绑 a 获得的效用是从捆绑 c 获得的 3 倍。因此,我们可以用下面的方式来表示完全相同的效用函数

捆绑 a≫7,326 捆绑 b≫12.6 捆绑 c≫−1,000,000

因此,序数效用函数中的数字并不衡量任何数量。一个重视大小的效用函数称为“基数”。每当有人提到效用函数而没有指明指的是哪一种时,你应该假设它是序数的。这些是我们将需要用于我们将要检验的第一组游戏的类型。稍后,当我们开始研究如何解决涉及(事前)不确定性的游戏时——例如我们在第一部分中的渡河游戏——我们将需要构建基数效用函数。冯·诺伊曼和莫根斯特恩(1944)提出了这样做的技术,并且这是他们发明博弈论的一个重要方面。然而,目前我们只需要序数函数。

2.2 Games and Rationality

所有情况中,至少有一个代理人只能通过预期(无论是有意识地还是仅仅是在其行为中隐含地)对其行动的其他一个或多个代理人的反应来最大化其效用的情况都被称为博弈。参与博弈的代理人被称为玩家。如果所有代理人无论其他人做什么都有最优行动,就像在纯粹的参数情况或垄断或完全竞争的条件下一样(见上文第 1 节),我们可以在不诉诸博弈论的情况下对此进行建模;否则,我们就需要博弈论。

博弈论家假设玩家具有一系列能力,通常在经济学文献中被称为“理性”。通常,这是通过简单的陈述来表达,比如“假设玩家是理性的”。在批评经济学总体或将博弈论引入人文学科的文献中,这种修辞方式越来越成为攻击的对象。与“理性”相关的是一张密集而错综复杂的联系网络,历史上,这个词经常被用来规范性地边缘化情感、女性气质和共情等与正常和重要特征相关的事物。博弈论家对该概念的使用不需要,也通常不涉及这样的意识形态。为了本文的目的,我们将“经济理性”作为一个严格的技术术语,而不是规范性的术语,用来指代冯·诺依曼和莫根斯特恩原始博弈论以及 RPT 所共享的一组狭窄而具体的偏好限制。经济学家在建模市场时使用了第二个同样重要(对他们而言)的理性概念,称之为“理性预期”。在这个短语中,“理性”不是指对偏好的限制,而是指对信息处理的非限制:理性预期是反映代理人利用所有可用信息进行统计准确加权的理想化信念。读者应该注意,在同一学科内,这两种用法在技术上是无关的。此外,原始 RPT 多年来已经通过几组不同的公理为不同的建模目的进行了具体化。一旦我们决定将理性视为一个技术概念,每次调整公理,我们就会有效地修改这个概念。因此,在任何涉及经济学家和哲学家的讨论中,我们可能会发现不同的参与者使用同一个词指代不同的事物。对于对经济学、博弈论、决策理论和行动哲学不熟悉的读者来说,这种情况自然是一个挑战。

在本文中,“经济理性”将以博弈论、微观经济学和形式决策理论中共享的技术意义来使用,具体如下。一个经济理性的玩家是一个能够(i)评估结果的人,即根据对结果对其福利的贡献进行排序;(ii)计算到达结果的路径,即识别哪些行动序列与哪些结果有概率关联;以及(iii)从一组备选方案中选择行动(我们将其描述为“选择”行动),以获得她最优先的结果,考虑到其他玩家的行动。我们可以总结出背后的直觉如下:一个实体被有用地建模为经济理性的代理,是因为它有备选方案,并且在选择中,至少更多地是受其目的的最佳选择所驱使。对于熟悉哲学家丹尼尔·丹尼特(Daniel Dennett)的工作的读者,我们可以将经济理性代理的概念与丹尼特所描述的有意向的实体等同起来,然后说我们可以从“有意向的立场”有用地预测经济理性代理的行为。如后文所述,有意向的立场可以通过借鉴萨维奇(Savage)的主观理性公理(1954 年)(Harrison 和 Ross 即将出版)来进行量化指定选择的应用,并在此基础上进行特殊修改。

在某些情况下,经济合理性可能通过代理执行的内部计算得到满足,她可能知道也可能不知道计算或已经计算了其条件和含义。在其他情况下,经济合理性可能仅仅体现在自然、文化或市场选择形成的行为倾向中。特别是,在称某个行动为“选择”时,我们并不意味着必然的思考,无论是有意识的还是无意识的。我们仅仅是指这个行动是在另一种可能的行动可用时采取的,这种“可用”的意义通常由特定分析的背景所确定。(博弈论家和经济学家所使用的“可用”绝不应该被理解为仅仅是“形而上学上”或“逻辑上”可用;它几乎总是务实的、语境相关的,并且可以通过更精细的建模进行修订。)

游戏中的每个玩家都面临在两种或两种以上可能策略中进行选择。策略是预先确定的“游戏程序”,告诉她在对其他玩家可能采用的每种可能策略做出反应时应采取什么行动。当我们在下面讨论一些示例游戏时,这里的斜体短语的重要性将变得清楚起来。

游戏规则的一个关键方面涉及玩家在选择策略时拥有的信息。从逻辑结构的角度来看,最简单的游戏是那些代理拥有完美信息的游戏,这意味着在每个代理的策略指导她采取行动的每一点上,她都知道游戏到目前为止发生的一切。一个例子是顺序移动的棋盘游戏,其中两名玩家都观察所有行动(并且知道共同的规则),比如国际象棋。相比之下,上文第 1 节中的过河游戏的例子说明了一个信息不完全的游戏,因为逃犯必须在不知道追捕者选择等待的桥的情况下选择要过的桥,而追捕者也是在不知道逃犯选择的情况下做出决定。由于博弈论涉及到在其他人采取战略性重要行动的情况下的经济上理性的行动,当我们进行分析时,玩家在游戏中相信或不相信其他人的行动对我们分析的逻辑产生了相当大的影响,这一点应该不足为奇。

2.3 树和矩阵

完全信息和不完全信息的游戏之间的区别与(尽管肯定不完全相同!)基于游戏表现方式的顺序的区别有关。让我们首先通过信息方面来区分顺序移动和同时移动的游戏。最自然的初步近似是,将顺序移动的游戏看作是玩家依次选择他们的策略的游戏,将同时移动的游戏看作是玩家同时选择他们的策略的游戏。然而,这并不完全正确,因为战略重要的是事件的时间顺序本身,而是玩家是否知道其他玩家的行动以及何时相对于选择自己的行动。例如,如果两家竞争的企业都在计划营销活动,其中一家可能在另一家之前数月就确定了其策略;但如果在他们做决定时,他们都不知道对方已经承诺了什么或将会承诺什么,这就是一个同时移动的游戏。相比之下,象棋通常是作为一个顺序移动的游戏进行的:在选择下一步行动之前,你可以看到你的对手已经做了什么。(如果玩家在一个共同的棋盘上叫棋子,而彼此隔离,那么象棋可以变成一个同时移动的游戏;但这与传统的象棋是非常不同的游戏。)

如上所述,顺序移动和同时移动游戏之间的区别并不等同于完全信息和不完全信息游戏之间的区别。解释这一点是建立对这两组概念的充分理解的好方法。正如前一段所描述的,同时移动游戏必定是不完全信息的游戏。然而,有些游戏可能包含顺序和同时移动的混合。例如,两家公司可能独立地并且秘密地承诺他们的营销策略,但之后在彼此全面可见的定价竞争中参与。如果最佳的营销策略部分或全部取决于预期在随后的定价游戏中会发生什么,那么这两个阶段需要被分析为一个单一的游戏,在这个游戏中,一个顺序游戏阶段跟随一个同时游戏阶段。然而,涉及这种混合阶段的整个游戏都是不完全信息的游戏,无论它们在时间上是如何分阶段的。完全信息的游戏(顾名思义)表示没有任何行动是同时进行的(也没有任何玩家会忘记之前发生的事情)。

正如先前所指出的,完全信息博弈是(逻辑上)最简单的博弈形式。这是因为在这样的博弈中(只要博弈是有限的,也就是说,在经过已知数量的行动之后终止),玩家和分析者可以使用一种直接的程序来预测结果。在这样的博弈中,玩家通过考虑每一系列的响应和反响来选择她的第一个行动,这些响应和反响将由她每个可选择的行动而产生。然后,她会问自己,哪一个可用的最终结果给她带来了最高的效用,并选择开始通往这个结果的链条的行动。这个过程被称为反向归纳(因为推理是从最终结果向当前选择问题逆向进行的)。

有关反向归纳及其特性还有很多要讨论的内容,这将在后面的部分中(当我们讨论均衡和均衡选择时)进行。目前,我们只是描述了它,以便介绍用于表示博弈的两种数学对象之一:博弈树。博弈树是数学家所说的有向图的一个例子。也就是说,它是一组相连的节点,整个图具有一个方向。我们可以从页面顶部到底部绘制树,或者从左到右。在第一种情况下,页面顶部的节点被解释为在行动序列中较早出现。在从左到右绘制的树的情况下,左侧节点在序列中优先于右侧节点。一个未标记的树具有以下结构:

图 1

用树来表示游戏的要点最好通过将它们在支持向后归纳推理中的使用进行形象化来把握。只需想象玩家(或分析者)从树的末端开始,结果在那里展示,然后从这些结果向后寻找描述通向它们的路径的一组策略。由于玩家的效用函数表明了她更偏好哪些结果,我们也知道她会更偏好哪些路径。当然,并非所有路径都是可能的,因为另一位玩家也在选择路径中扮演着角色,并且不会采取导致她更不喜欢的结果的行动。在我们描述了可以使用树来建模的情况之后,我们将介绍一些这种互动路径选择的例子,并详细阐述通过这些例子进行推理的技术。

树被用来表示顺序博弈,因为它们展示了玩家采取行动的顺序。然而,有时候游戏会以矩阵而不是树的形式表示。这是用来表示游戏的第二种数学对象。与树不同,矩阵仅仅展示了可能的策略组合下的结果,用玩家的效用函数来表示。例如,在第 1 节中的过河游戏中,将其显示在矩阵上是有意义的,因为在该游戏中,逃犯和猎人每人只有一次行动机会,并且每个人在不知道对方决定如何行动的情况下进行选择。下面是矩阵的一部分:

Figure 2

逃犯的三种可能策略——在安全桥上过河、冒险穿越岩石或冒险穿越眼镜蛇——构成了矩阵的行。同样,追捕者的三种可能策略——在安全桥处等待、在岩石桥处等待和在眼镜蛇桥处等待——构成了矩阵的列。矩阵的每个单元格显示了——或者说如果我们的矩阵是完整的话将显示——以玩家回报为定义的结果。玩家的回报只是由她的序数效用函数分配给与所讨论结果相对应的事态的数字。对于每个结果,行的回报总是首先列出,然后是列的。因此,例如,上方左上角显示了,当逃犯在安全桥上过河而追捕者在那里等待时,逃犯得到 0 的回报,而追捕者得到 1 的回报。我们通过参考这两个玩家的效用函数来解释这些情况,在这个游戏中,这些函数非常简单。如果逃犯安全地穿过河,他将获得 1 的回报;如果他没有,他将得到 0。如果逃犯没有成功,要么是因为他被追捕者击中,要么是被岩石击中或被眼镜蛇咬了,那么追捕者将获得 1 的回报,而逃犯将得到 0 的回报。

我们将简要解释已经填写的矩阵部分,然后说明为什么我们还不能完成其余部分。每当追捕者在逃犯选择的桥处等待时,逃犯就会被击中。这些结果都提供了回报向量(0,1)。你可以在上方左上角的矩阵中沿着对角线找到它们。每当逃犯选择安全桥,但追捕者在其他地方等待时,逃犯就能安全过河,产生回报向量(1,0)。这两个结果显示在顶行的后两个单元格中。其余的所有单元格目前都标有问号。为什么呢?问题在于,如果逃犯穿越岩石桥或眼镜蛇桥,他会引入参数因素到游戏中。在这些情况下,他承担了一定的被杀的风险,因此产生了回报向量(0,1),这与追捕者的任何行为都无关。我们还没有引入足够的概念来展示如何用效用函数来表示这些结果——但等我们完成时,我们将能够做到,这将为解决我们在第 1 节中的难题提供关键。

矩阵游戏被称为“正规形式”或“战略形式”游戏,而树状游戏被称为“广义形式”游戏。这两种类型的游戏并不等价,因为广义形式游戏包含了关于游戏过程序列和玩家对游戏结构信息水平的信息,而战略形式游戏则没有。一般来说,一个战略形式游戏可以代表几种广义形式游戏中的任何一种,因此最好将战略形式游戏视为一组广义形式游戏。当游戏的进行顺序对游戏结果无关紧要时,你应该研究它的战略形式,因为你想了解的是整个集合。而当游戏的进行顺序相关时,必须指定广义形式,否则你的结论将是不可靠的。

2.4 The Prisoner’s Dilemma as an Example of Strategic-Form vs. Extensive-Form Representation

上述描述的区别如果只有抽象的描述,是很难完全理解的。最好的方法是通过一个例子来说明。为此,我们将使用所有游戏中最著名的游戏:囚徒困境。事实上,它确实展现了科尔特斯和亨利五的士兵(见上文第 1 节)以及霍布斯的代理人在授权暴君之前所面临的问题的逻辑。然而,由于稍后会变得清楚的原因,你不应该把 PD 看作是一个典型的游戏;它并不是。我们之所以在这里使用它作为一个扩展的例子,仅仅是因为它特别有助于说明战略型和广义型游戏之间的关系(以及稍后,用于说明一次性和重复游戏之间的关系;见下文第 4 节)。

囚徒困境游戏的名称源自通常用来举例说明的以下情况。假设警察逮捕了两个他们知道一起实施抢劫的人。不幸的是,他们没有足够的可接受的证据来说服陪审团定罪。然而,他们确实有足够的证据来让每个囚犯因偷走逃跑车而被判两年监禁。现在,总督向每个囚犯提出以下提议:如果你承认犯有抢劫罪,牵连你的伙伴,而她没有承认,那么你将获得自由,她将被判十年。如果你们两个都承认,你们将各自获刑 5 年。如果你们两个都不承认,那么你们每个人都将因汽车失窃被判两年。

我们在将两名囚犯的情况建模为一场博弈的第一步是用效用函数来表示它。按照通常的惯例,让我们将囚犯命名为‘玩家 I’和‘玩家 II’。玩家 I 和玩家 II 的顺序效用函数都是相同的:

Go free ≫42 years ≫35 years ≫210 years ≫0

上述函数中的数字现在用于表示每个玩家在可能的情况下的收益。我们可以用一个矩阵来表示他们所面临的问题,该矩阵捕捉到他们各自选择相互作用的方式;这是他们博弈的战略形式:

Figure 3

矩阵的每个单元格都给出了每种行动组合对两名玩家的回报。玩家 I 的回报出现在每对数字的第一个位置,玩家 II 的回报出现在第二个位置。因此,如果两名玩家都坦白,那么他们各自都会得到 2 的回报(每人入狱 5 年)。这出现在左上角的单元格中。如果他们都不坦白,他们各自都会得到 3 的回报(每人入狱 2 年)。这出现在右下角的单元格中。如果玩家 I 坦白而玩家 II 不坦白,那么玩家 I 会得到 4 的回报(自由)而玩家 II 会得到 0 的回报(入狱 10 年)。这出现在右上角的单元格中。相反的情况,即玩家 II 坦白而玩家 I 拒绝,出现在左下角的单元格中。

每名玩家通过比较每一列中的个人回报来评估自己的两种可能行动,因为这显示了哪种行动对他们自己来说更可取,对于对方的每种可能行动。因此,请观察:如果玩家 II 坦白,那么玩家 I 坦白会得到 2 的回报,拒绝会得到 0 的回报。如果玩家 II 拒绝,那么玩家 I 坦白会得到 4 的回报,拒绝会得到 3 的回报。因此,无论玩家 II 做什么,玩家 I 坦白都更有利。与此同时,玩家 II 通过比较每一行中的回报来评估她的行动,她得出的结论与玩家 I 完全相同。每当一名玩家的一种行动对她的其他行动在对手的每种可能行动下都更为优越时,我们称第一种行动严格支配第二种行动。在囚徒困境中,坦白严格支配拒绝对于两名玩家都是如此。两名玩家都知道对方的情况,因此完全消除了偏离严格支配路径的任何诱惑。因此,两名玩家都会坦白,都将入狱 5 年。

玩家和分析者可以使用一种机械程序来预测结果,这种程序被称为严格支配策略的迭代淘汰。玩家 1 可以通过检查矩阵来看到,他在顶行的每个单元格中的收益都高于他在底行每个对应单元格中的收益。因此,对他来说,按照效用最大化的原则,他永远不会选择玩底行策略,即拒绝坦白,无论玩家 II 做什么。由于玩家 I 的底行策略永远不会被选择,我们可以简单地从矩阵中删除底行。现在很明显,玩家 II 不会拒绝坦白,因为她在剩下的两个单元格中坦白的收益高于拒绝的收益。因此,我们可以再次从游戏中删除右侧的单元格。现在我们只剩下一个单元格,对应于由相互坦白带来的结果。由于导致我们删除所有其他可能结果的推理在每一步都仅仅依赖于两个玩家都是经济理性的前提,即会选择导致更高收益而不是更低收益的策略,因此有充分的理由认为共同坦白是游戏的解,其结果必须收敛到这一程度,以至于经济理性正确地模拟了玩家的行为。您应该注意,删除严格支配的行和列的顺序并不重要。如果我们首先删除右侧列,然后删除底行,我们将得到相同的解决方案。

有人多次说过 PD 在许多方面都不是典型的游戏。其中之一是它的所有行和列要么严格支配,要么严格优势。在任何这种情况成立的战略型形式游戏中,严格支配策略的迭代淘汰都保证会产生唯一的解决方案。然而,稍后我们将看到,对于许多游戏,这种条件并不适用,那么我们的分析任务就不那么直截了当。

读者可能已经注意到囚徒困境的结果有些令人不安。如果两名玩家都拒绝认罪,他们将会达到右下方的结果,他们各自只会被监禁 2 年,因此他们的效用都比两人都认罪时要高。这是囚徒困境最重要的事实,对于博弈论的意义是相当普遍的。因此,当我们讨论博弈论中的均衡概念时,我们将在下文中返回到这一点。然而,现在让我们继续使用这个特定的游戏来说明战略形式和广义形式之间的区别。

当人们将囚徒困境引入到公众讨论中时,经常会听到有人说警察局长必须把囚犯锁在不同的房间里,这样他们就无法相互交流。这个想法背后的推理似乎很明显:如果玩家们能够交流,他们肯定会意识到如果两人都拒绝认罪,他们都会更好,然后可以达成协议这样做,不是吗?人们推断,这将消除每个玩家的信念,即他们必须认罪,因为否则他们将被他们的伙伴出卖。然而,事实上,这种直觉是误导的,其结论是错误的。

当我们将 PD 表示为一个战略型博弈时,我们默认地假设囚犯们不能尝试串通协议,因为他们是同时选择行动的。在这种情况下,事前的协议是无济于事的。如果玩家 I 相信他的搭档会遵守协议,那么他可以抓住机会通过坦白来逃脱惩罚。当然,他意识到同样的诱惑也会发生在玩家 II 身上;但在这种情况下,他再次希望确保自己坦白,因为这是他避免最糟糕结果的唯一途径。囚犯们的协议毫无意义,因为他们无法强制执行;他们彼此的承诺构成了博弈论家所说的“廉价言谈”。

但现在假设囚犯们不是同时行动的。也就是说,假设玩家 II 在观察玩家 I 的行动后可以做出选择。这是那些认为非沟通重要的人们所必须考虑的情况。现在玩家 II 将能够看到玩家 I 在选择时保持了坚定,她不必担心被欺骗。然而,这并没有改变任何事情,这一点最好通过重新以广义形式表示游戏来说明。这给了我们一个机会来介绍博弈树以及适合它们的分析方法。

首先,这里有一些概念的定义,这些概念有助于分析博弈树:

Node: a point at which a player chooses an action.

初始节点:游戏中发生第一次行动的点。

终止节点:任何节点,如果到达该节点,游戏就结束。每个终止节点对应一个结果。

子博弈:从一个节点唯一下降的任何连接的节点和分支集合。

收益:分配给玩家的结果的序数效用数。

结果:对于游戏中的每个玩家,分配一组回报。

策略:一种指导玩家在树的每个节点上采取行动的程序,在可能需要做出选择的地方调用玩家。

这些简要定义可能对您来说意义不大,直到您在下面的树分析中看到它们被应用时。最好的方法可能是在我们逐步进行分析时来回滚动它们和示例之间。当您理解每个示例时,您会发现这些概念及其定义是自然而直观的。

为了使这个练习具有最大的教育意义,让我们假设玩家 I 和玩家 II 已经研究了上面的矩阵,并且看到他们在右下角的结果中都更好,因此达成了合作协议。玩家 I 首先承诺拒绝,之后当警察询问玩家 II 的选择时,玩家 II 会予以回应。我们将称保持协议的策略为“合作”,并在下面的树上用“C”表示。我们将称违反协议的策略为“背叛”,并在下面的树上用“D”表示。为了方便讨论,每个节点从上到下编号为 1、2、3...。下面是这棵树:

图 4

首先看每个终端节点(底部的节点)。这些代表可能的结果。每个都标有一组支付,就像在战略型形式的游戏中一样,Player I 的支付在每组中首先出现,Player II 的支付在每组中其次出现。从节点 1、2 和 3 分别下降的每个结构都是一个子博弈。我们开始我们的反向归纳分析——使用一种称为策略形成算法的技术——处理在游戏序列中最后出现的子博弈。如果从节点 3 下降的子博弈被玩了,那么 Player II 将面临在支付 4 和支付 3 之间做出选择。 (在从节点 3 下降的终端节点中查看代表她支付的第二个数字。)她通过玩 D 获得更高的支付。因此,我们可以直接将支付(0,4)分配给节点 3,因为这是游戏达到该节点时将实现的结果。现在考虑从节点 2 下降的子博弈。在这里,Player II 面临在支付 2 和 0 之间做出选择。她通过玩 D 获得更高的支付 2。因此,我们可以直接将支付(2,2)分配给节点 2。现在我们转向从节点 1 下降的子博弈。(这个子博弈当然与整个游戏相同;所有游戏都是它们自己的子博弈。)现在 Player I 面临着(2,2)和(0,4)两种结果之间的选择。查看这些组中的第一个数字,他会发现通过玩 D 获得更高的支付——2。当然,D 是坦白的选择。所以 Player I 坦白,然后 Player II 也坦白,产生与战略型形式表示中相同的结果。

直观上发生的情况是,玩家 I 意识到,如果他在节点 1 选择 C(拒绝坦白),那么玩家 II 可以通过欺骗他并选择 D 来最大化她的效用。(在树上,这发生在节点 3。)这将使玩家 I 的回报为 0(十年监禁),他只能通过一开始选择 D 来避免这种情况。因此,他违反了协议。

因此,我们已经看到,在囚徒困境的情况下,同时和顺序版本会产生相同的结果。然而,在其他游戏中,这通常不成立。此外,只有有限的完全信息的展式形式(顺序)博弈可以使用泽梅洛算法来解决。

正如本节前面所指出的,有时我们必须表示在其他情况下是顺序的游戏中同时进行的动作。(在所有这类情况下,整个游戏都将是不完全信息的,因此我们将无法使用策略消除法来解决它。)我们使用信息集的设备来表示这样的游戏。请考虑以下树:

图 5

在节点 b 和 c 周围画的椭圆表示它们位于一个共同的信息集内。这意味着在这些节点,玩家无法推断出路径的起始点;在选择策略时,玩家 II 不知道自己是在 b 还是 c。 (因此,在展开式形式的游戏中,正确的编号是信息集,被构想为“行动点”,而不是节点本身;这就是为什么椭圆内部的节点标有字母而不是数字的原因。)换句话说,在选择时,玩家 II 不知道玩家 I 在节点 a 上做了什么。但您会回忆起本节前面提到的,这正是定义两个移动为同时进行的内容。因此,我们可以看到将游戏表示为树的方法是完全通用的。如果初始节点之后没有节点单独位于其树上的信息集中,以至于游戏只有一个子游戏(它自身),那么整个游戏就是一个同时进行的游戏。如果至少有一个节点与另一个共享其信息集,而其他节点是独立的,那么游戏既涉及同时进行又涉及顺序进行,因此仍然是一个不完全信息的游戏。只有当所有信息集都只有一个节点时,我们才有一个完全信息的游戏。

2.5 解概念和均衡

在囚徒困境中,我们将表示为(2,2)的结果,即相互背叛,被称为游戏的“解”。按照经济学的一般惯例,博弈论学者将游戏的解称为均衡。具有哲学思维的读者会想要在这里提出一个概念性问题:为什么某些游戏结果被称为“解”,它们有什么“均衡”之处?当我们说一个物理系统处于均衡状态时,我们指的是它处于稳定状态,即系统内部的所有因果力量相互平衡,因此使其“静止”,直到受到某些外部力量的干扰。这是经济学家传统上在谈论“均衡”时的意思;他们将经济系统看作是相互制约(通常是因果关系)的网络,就像物理系统一样,这些系统的均衡状态是它们内生稳定的状态。(请注意,在物理和经济系统中,内生稳定状态可能永远不会直接观察到,因为所讨论的系统从未与移动和破坏它们的外部影响隔离。在经典力学和经济学中,均衡概念是分析工具,而不是我们预期观察到的结果。)正如我们将在后面的章节中看到的,博弈论可以保持对均衡的这种理解。然而,正如我们在 2.1 节中所指出的,有些人将博弈论解释为一种关于战略推理的解释性理论。对于他们来说,游戏的解必须是一个理性主体仅仅通过理性计算机制就能预测到的结果。这些理论家在解决解决概念的一些难题时面临着一些比那些不试图使用博弈论来支持一般理性分析的理论家更不重要的难题。哲学家对博弈论的兴趣更多地是出于这种雄心,而不是经济学家或其他科学家的兴趣。

从囚徒困境的案例开始讨论是有益的,因为从解决解决概念的难题的角度来看,它异常简单。我们所称的“解”是该游戏的唯一纳什均衡(Nash equilibrium)。(这里的“Nash”指的是约翰·纳什,诺贝尔奖得主,他在 Nash(1950)中对冯·诺依曼和莫根斯特恩的开创性工作进行了最广泛的推广和推广。)纳什均衡(以下简称“NE”)适用于(或不适用于,视情况而定)游戏中每个玩家的一组策略。一组策略只有在没有玩家能够通过改变自己的策略来提高自己的收益时,才是一个 NE。请注意,这个想法与严格优势的想法密切相关:如果一个策略被严格支配,它就不能是 NE 策略。因此,如果通过迭代淘汰严格支配策略可以得到唯一的结果,我们就知道导致该结果的策略向量是游戏的唯一 NE。现在,几乎所有的理论家都同意避免使用严格支配策略是经济理性的最低要求。一个明知选择了严格支配策略的玩家直接违反了第 2.2 节中对经济机构的定义中的第三条款。这意味着如果一个游戏有一个唯一的 NE 结果,就像在囚徒困境中的共同坦白一样,那就必须是它的唯一解。这是囚徒困境是一个“简单”(且非典型)游戏的最重要方面之一。

我们可以确定一类游戏,在这类游戏中,纳什均衡不仅是必要的解决概念,而且是充分的。这些游戏是有限完全信息游戏,同时也是零和游戏。零和游戏(对于只涉及两名玩家的游戏)是指一名玩家只有通过使另一名玩家变得更糟来使自己变得更好。(井字棋是这类游戏的一个简单例子:任何使一名玩家更接近胜利的举动都会使对手更接近失败,反之亦然。)我们可以通过检查玩家的效用函数来确定游戏是否是零和游戏:在零和游戏中,这些函数将彼此成为镜像,一个玩家的高排名结果对于另一个玩家来说是低排名的,反之亦然。在这样的游戏中,如果我选择一种策略,以至于在你选择策略的情况下,我无法做得更好,而且如果你也选择这样的策略,那么由于我改变策略只会使你变得更糟,反之亦然,我们的游戏除了其唯一的纳什均衡之外,没有其他与我们的共同经济理性相容的解决方案。我们可以换一种说法:在零和游戏中,我选择一种策略,以使我在你尽力而为的情况下获得最大的最小回报,而你同时也在做同样的事情,这等同于我们都在发挥最佳策略,因此这对所谓的“最大最小”程序保证找到游戏的唯一解,即其唯一的纳什均衡。(在井字棋中,这是一局平局。如果我们都在尽力赢得比赛并尽力不输,那么我们都无法做得更好,也无法做得更差。)

然而,大多数游戏并不具备这种特性。在这篇文章中,不可能列举出所有游戏在解决方案可能性方面存在的问题的方式。(首先,理论家们很可能尚未发现所有可能的问题。)然而,我们可以尝试对这些问题进行概括。

首先,大多数非零和博弈存在一个问题,即存在多个纳什均衡(NE),但并非所有的 NE 看起来都同样可行,作为策略敏锐的玩家会选择的解决方案。考虑下面的战略型博弈(摘自(Kreps 1990, p. 403)(我们稍后将再次遇到,以“Hi-lo”命名):

图 6

这个博弈有两个纳什均衡:s1-t1 和 s2-t2。(注意这里没有严格支配的行或列。但如果玩家 I 选择 s1,那么玩家 II 最好的选择是 t1,反之亦然;对于 s2-t2 对也是一样。)如果纳什均衡是我们唯一的解决概念,那么我们将被迫说这两种结果中的任何一种同样具有说服力作为解决方案。然而,如果博弈论被视为战略推理的解释性和/或规范性理论,这似乎遗漏了一些内容:理智的、具有完美信息的玩家肯定会趋向于 s1-t1 吧?(注意这不像 PD 中的情况,那里社会上更优越的情况是不可实现的,因为它不是一个纳什均衡。在上述博弈中,两名玩家都有充分的理由试图趋向于使自己处于更有利的纳什均衡。)

这说明了纳什均衡是一个相对(逻辑上)较弱的解决概念,经常无法预测直观上合理的解决方案,因为如果单独应用,它拒绝允许玩家使用平衡选择原则,即使这些原则不是经济理性所要求的,或者不是更有抱负的哲学家对理性的概念,至少看起来是合理的且可计算的。再考虑克雷普斯(1990)第 397 页的另一个例子:

Figure 7

在这种情况下,没有策略严格占优于另一个。然而,玩家 I 的顶部行 s1 弱支配 s2,因为无论玩家 II 作出什么回应,玩家 I 使用 s1 至少与使用 s2 一样好,而在玩家 II 的一种回应(t2)上,玩家 I 表现更好。那么玩家(和分析师)不应该删除弱支配行 s2 吗?当他们这样做时,列 t1 就被严格支配,然后 NE s1-t2 被选为唯一解决方案。然而,正如 Kreps 在这个例子中所展示的,弱支配策略应该像严格的策略一样删除这个想法有一些奇怪的后果。假设我们稍微改变游戏的支付,如下所示:

图 8

s2 仍然像以前一样是弱支配的;但在我们的两个纳什均衡中,s2-t1 现在对于双方玩家来说是最有吸引力的;那么为什么分析者要排除它的可能性呢?(请注意,这个游戏再次不复制 PD 的逻辑。在 PD 中,排除最有吸引力的结果,即共同拒绝坦白,是有意义的,因为双方玩家都有动机单方面偏离它,所以它不是一个纳什均衡。而在当前的游戏中,s2-t1 并非如此。你应该开始清楚地看到为什么我们称 PD 游戏为“非典型”。)排除弱支配策略的论点是,玩家 1 可能会感到紧张,担心玩家 2 并不完全确定自己在经济上是理性的(或者玩家 2 担心玩家 1 并不完全可靠地在经济上是理性的,或者玩家 2 担心玩家 1 担心玩家 2 并不完全可靠地在经济上是理性的,依此类推),因此可能会以一定的概率玩 t2。如果认真对待从可靠的经济理性性偏离的可能性,那么我们有理由排除弱支配策略:玩家 1 因此确保自己免受最坏结果 s2-t2 的影响。当然,她为这种保险付出了代价,将她的预期收益从 10 降低到 5。另一方面,我们可以想象,在玩游戏之前,玩家可以进行沟通并同意在 s2-t1 上进行协调,从而消除一些、大部分或全部鼓励排除弱支配行 s1 的不确定性,并消除 s1-t2 作为一个可行的解决方案!

任何提出的解决可能会消除一个或多个 NE 作为解决方案的游戏的原则都被称为 NE 的细化。在刚讨论的情况下,消除弱支配策略是一种可能的细化,因为它消除了 NE s2-t1,相关性是另一种,因为它消除了另一个 NE,s1-t2。那么哪种细化更适合作为解决概念?将博弈论视为战略理性的解释性和/或规范性理论的人们已经产生了大量文献,其中辩论了大量细化的优点和缺点。原则上,可以考虑的细化数量似乎没有限制,因为对于一个理性的代理可能或可能不适合遵循的原则或其他玩家可能或可能不遵循的原则可能也没有限制的哲学直觉集。

现在我们暂时离题,以阐明术语。在经济学哲学文献中,采用博弈论中效用函数的显性偏好解释的理论家有时被称为“行为主义者”。这反映了显性偏好方法将选择与经济一致的行为相提并论,而不是旨在指代心理构造。历史上,在 20 世纪中叶,经济学中的显性偏好与科学心理学中占主导地位的方法论和本体论行为主义存在一种舒适的关联关系,尽管并非直接的理论共同建构。然而,由于最近行为博弈论的兴起,这种用法越来越可能引起混淆。这项研究计划旨在直接将人们从实验中得出的关于人们在从信息中得出推断时与纯经济代理人的不同之处的概括性内容纳入博弈论模型中(“框架”)。应用通常还包括关于效用函数的特殊假设,这些假设也主要来自实验。例如,玩家可能愿意在他们自己的回报大小和玩家之间回报分配的不平等之间做出权衡。我们将在第 8.1 节、第 8.2 节和第 8.3 节讨论一些关于行为博弈论的内容。暂时注意到,这种博弈论的使用在很大程度上依赖于关于被认为在人类中普遍存在的价值心理表征的假设。因此,将行为博弈论称为“行为主义”将是误导的。但是继续将依赖于显性偏好的传统经济博弈论称为“行为主义”博弈论只会引起混淆。因此,我们将其称为“非心理学”博弈论。我们所指的是大多数不是修正主义行为经济学家使用的博弈论的类型。(我们使用“修正主义”来反映另一个复杂性,即越来越多的应用显性偏好概念的经济学家进行实验,其中一些人自称为“行为经济学家”!有关减少这种标签混乱的一套新约定的建议,请参阅 Ross(2014),第 200-201 页。)这些“建立”的经济学家将博弈论视为战略互动的抽象数学,而不是试图直接描述可能在人类中典型的特殊心理倾向。

非心理学的博弈论学者往往对许多精炼计划持怀疑态度。这是因为它依赖于人们应该认为合理的推理类型的直觉。与大多数科学家一样,非心理学的博弈论学者对哲学假设作为经验和数学建模指导的力量和基础持怀疑态度。

相比之下,行为博弈论可以被理解为博弈论的一种精炼,尽管不一定是其解决概念的精炼,但在不同的意义上。它限制了该理论适用于一类特殊的个体,即心理上典型的人类。它通过参考人们确实认为自然的推理和偏好来推动这种限制,而不管这些推理是否合乎理性,而它们通常并不合乎理性。非心理学和行为博弈论的共同之处在于,它们都不是以规范为目的,尽管它们经常被用来描述玩家群体中存在的规范,并解释为什么规范在玩家群体中可能会持续存在,即使它们在哲学直觉中似乎不完全合理。两者都认为应用博弈论的任务是根据玩家环境中的动态,包括制度压力、结构和进化选择,预测实证博弈的结果,给定一些战略性倾向的分布以及关于他人战略性倾向的期望分布。因此,让我们将非心理学和行为博弈论学者归为一类,仅用于与规范博弈论学者进行对比,作为描述性博弈论学者。

描述性博弈论者经常倾向于怀疑寻求一般理性理论的目标是否有意义。制度和进化过程构建了许多环境,在一个环境中被视为理性程序的东西在另一个环境中可能并不受青睐。另一方面,一个实体如果至少不是随机地(即,可能有噪音但统计上更常发生而不是偶然发生)满足经济理性的最低限制,那么除了偶然之外,就不能准确地被描述为旨在最大化效用函数。对于这样的实体,博弈论根本就没有应用。

这并不意味着非心理学的博弈论者放弃了所有基于相对概率的 NE 子集的原则性限制方式。特别是,非心理学的博弈论者倾向于支持那些将重点从理性转移到博弈的信息动态考虑的方法。或许我们不应感到惊讶,仅仅通过 NE 分析通常无法告诉我们关于战略型博弈(例如上图的图 6)的应用和实证兴趣的许多信息,因为在这些博弈中信息结构被抑制。平衡选择问题在广义博弈的背景下通常更有成果地得到处理。

2.6 Subgame Perfection

为了加深我们对广义博弈的理解,我们需要一个比囚徒困境提供的更有趣结构的例子。

考虑由这棵树描述的博弈:

图 9

这个游戏并不打算适应任何预设情况;它只是一个寻找应用的数学对象。(L and R here just denote ‘left’ and ‘right’ respectively.)

现在考虑这个游戏的战略形式:

图 10

如果你对此感到困惑,请记住,策略必须告诉玩家在每个信息集上该玩家应该做什么。由于每个玩家在这里的每个信息集上都要在两个行动中选择一个,因此每个玩家总共有四种策略。每个策略指定中的第一个字母告诉每个玩家如果他或她到达他们的第一个信息集时该做什么,第二个字母告诉他们的第二个信息集到达时该做什么。例如,对于玩家 II 的 LR 策略,告诉 II 如果到达信息集 5 就玩 L,如果到达信息集 6 就玩 R。

如果你检查图 10 中的矩阵,你会发现(LL, RL)是 NE 中的一种。这有点令人困惑,因为如果玩家 I 在广义形式博弈中到达她的第二个信息集(7),她几乎不愿意在那里玩 L;在节点 7 处,她通过玩 R 可以获得更高的回报。单纯的 NE 分析并没有注意到这一点,因为 NE 对于游戏路径之外发生的事情不敏感。玩家 I 在节点 4 处选择 L,确保节点 7 不会被达到;这就是所谓的“游戏路径之外”。然而,在分析广义形式博弈时,我们应该关心游戏路径之外发生的事情,因为这对游戏路径上发生的事情至关重要。例如,玩家 I 如果节点 7 被达到会选择 R,这会导致玩家 II 如果节点 6 被达到就会选择 L,这就是为什么玩家 I 不会在节点 4 选择 R。如果我们忽略游戏路径之外的结果,就会丢弃与游戏解决方案相关的信息,就像单纯的 NE 分析所做的那样。请注意,对 NE 是否作为一个完全令人满意的均衡概念表示怀疑的原因,与对理性的直觉无关,就像第 2.5 节中讨论的完善概念一样。

现在将策略形式的扩展形式应用于我们当前示例的策略。再次从最后一个子博弈开始,即从节点 7 开始。这是玩家 I 的走步,她会选择 R,因为她更喜欢自己的 5 的回报,而不是通过选择 L 得到的 4 的回报。因此,我们将回报(5,-1)分配给节点 7。因此在节点 6,II 面临着选择(-1,0)和(5,-1)。他选择 L。在节点 5,II 选择 R。在节点 4,I 因此在(0,5)和(-1,0)之间进行选择,因此选择 L。请注意,正如在 PD 中一样,出现了一个在终端节点的结果——从节点 7 到(4,5)——这个结果对 NE 来说是帕累托优越的。然而,同样,游戏的动态性阻止了它的实现。

Zermelo 的算法选择策略向量(LR,RL)作为游戏的唯一解,这表明它产生的不仅仅是 NE。事实上,它生成了游戏的子博弈完美均衡(SPE)。它给出了一个结果,不仅在整个游戏中产生 NE,在每个子博弈中也产生 NE。这是一个有说服力的解决方案概念,因为与第 2.5 节的细化不同,它不要求代理人在期望他们具有并使用关于“什么是有意义”的哲学直觉的意义上具有“额外”的理性。然而,它确实假设玩家不仅知道与他们情况相关的一切战略信息,而且还使用所有这些信息。在关于经济基础的论证中,这经常被称为理性的一个方面,就像在短语“理性预期”中一样。但是,正如前面所指出的,最好小心,不要混淆理性的一般规范观念与计算能力以及拥有预算的观念,在时间和精力上充分利用它。

一个使用子博弈完美策略的参与者只需在她到达的每个节点上选择使她在该节点发出的子博弈中获得最高回报的路径。只有当在解决博弈时,玩家们预见到他们都会这样做时,SPE 才能预测博弈的结果。

分析广义博弈以寻找博弈论中的社会优化结构障碍是其主要价值。在我们当前的例子中,玩家 I 在从节点 7 发出的左侧节点上会更好,而玩家 II 在 SPE 结果上不会更差。但是,玩家 I 的经济理性以及玩家 II 对此的认识阻碍了社会有效的结果。如果我们的玩家希望在这里实现更具社会效益的结果(4, 5),他们必须通过重新设计他们的制度来改变博弈的结构。改变制度和信息结构以使实际参与者(即人们、公司、政府等)在实际博弈中更有可能实现有效结果的企业被称为机制设计,它是博弈论的一个主要应用领域。主要技术在 Hurwicz 和 Reiter(2006)中进行了回顾,该文的第一作者因在该领域的开创性工作而获得了诺贝尔奖。第二次翻译:

2.7 对解释收益的看法:博弈中的道德与效率

许多读者,尤其是哲学家,可能会想知道为什么在前一节中提到的例子中,机制设计是否必要,除非玩家们是病态的自私变态。当然,玩家们也许能够看到结果(4,5)在社会和道德上更为优越;而且,既然整个问题也默认他们也能看到通往这一高效结果的行动路径,那么博弈论家有什么资格宣称,除非他们的博弈被改变,否则这是不可实现的呢?这一异议运用了伊曼纽尔·康德所倡导的理性的独特理念,表明了许多哲学家所指的“理性”比描述性博弈论者所理解的更多。这一主题在 Binmore(1994, 1998)中以极大的生动性和辩论力进行了探讨。

这场关于理性的重要哲学争议有时会因非心理学博弈论中“效用”一词的误解而变得混淆不清。为了消除这个错误,再次考虑囚徒困境。我们已经看到,在囚徒困境的唯一纳什均衡中,两名玩家获得的效用都比通过相互合作获得的效用要少。即使你不是康德主义者(正如许多评论家所认为的那样),这可能会让你感到荒谬。你可能会认为,这只是由于玩家的自私和偏执的结合所导致的。首先,他们不关心社会利益,然后他们因为过于不可信任而自食其果,无法遵守协议。

这种思维方式在大众讨论中非常常见,而且混淆严重。为了消除其影响,让我们首先引入一些用于讨论结果的术语。福利经济学家通常用帕累托效率来衡量社会福利。一个效用分配 β 被称为在另一个分配 δ 上帕累托优越,只要从状态 δ 到 β 存在一种可能的效用再分配,使得 β 中至少有一名玩家比 δ 中更好,而没有玩家变得更差。从帕累托劣势分配无法转移到帕累托优越分配是低效的,因为 β 作为一种可能性的存在,至少在原则上表明在 δ 中有一些效用被浪费了。现在,代表我们对囚徒困境模型中相互合作的结果(3,3)明显是帕累托优越于相互背叛的结果;在(3,3)中,两名玩家都比在(2,2)时更好。因此,囚徒困境导致了低效的结果是正确的。这在我们在第 2.6 节的例子中也是如此。

但是,低效并不应该与不道德联系在一起。对于玩家的效用函数应该代表玩家关心的一切,这可能是任何事情。正如我们所描述的囚犯的情况,他们确实只关心自己相对的监禁时间,但其中并没有什么是必要的。使得一个游戏成为 PD 的实例的是严格而仅仅是其支付结构。因此,我们可以在这里有两个特蕾莎修女类型的人,他们都很少关心自己,只希望喂饱挨饿的孩子。但假设原始的特蕾莎修女希望喂养加尔各答的孩子,而胡安妮塔修女希望喂养波哥大的孩子。假设国际援助机构将最大化其捐款,如果这两位圣徒提名同一个城市,将给予第二高的金额,如果他们提名对方的城市,将给予最低的金额。我们的圣徒在这里处于 PD 中,尽管他们并不自私,也不关心社会福祉。

回到我们的囚犯,假设与我们的假设相反,他们确实关心彼此的幸福以及自己的。在这种情况下,这必须反映在他们的效用函数中,因此也反映在他们的回报中。如果他们的回报结构发生变化,例如,他们对导致低效率感到如此糟糕,以至于他们宁愿多在监狱里度过几年也不愿忍受羞耻,那么他们将不再处于 PD 中。但所有这些只是表明并非每种可能的情况都是 PD;这并不表明自私是博弈论的假设之一。囚犯的情况的逻辑,而不是他们的心理,将他们困在低效率的结果中,如果那真的是他们的情况,那么他们就被困在其中(除非还有待讨论的进一步复杂情况)。希望避免低效结果的代理人最好是防止某些游戏的出现;主张康德理性可能性的辩护者实际上是在建议他们尝试通过将自己变成不同的代理人来摆脱这样的游戏。

总的来说,一个游戏在某种程度上是由分配给玩家的回报所定义的。在任何应用中,这些分配都应该基于可靠的经验证据。如果一个提议的解决方案涉及暗中改变这些回报,那么这个“解决方案”实际上是一种伪装的方式来改变主题,逃避最佳建模实践的含义。

2.8 Trembling Hands and Quantal Response Equilibria

我们上面的最后一点为我们打开了一条哲学难题的道路,这是逻辑博弈论基础仍然令人关注的几个难题之一。这个难题可以针对许多例子提出,但我们将借用 C. Bicchieri(1993)的一个优雅的例子。考虑以下博弈:

图 11

这里的 NE 结果是从节点 8 下降的单个最左节点。要看到这一点,再次向后归纳。在节点 10,我会选择 L,得到 3 的回报,给 II 得到 1 的回报。II 可以通过在节点 9 选择 L 来做得比这更好,给 I 得到 0 的回报。我可以通过在节点 8 选择 L 来做得比这更好;这就是 I 所做的,游戏终止而 II 无法移动。然后,Bicchieri(以及其他作者,包括 Binmore(1987)和 Pettit 和 Sugden(1989))提出了一个谜题,通过以下推理提出。玩家 I 在节点 8 选择 L,因为她知道玩家 II 在经济上是理性的,所以在节点 9,II 会选择 L,因为 II 知道玩家 I 在经济上是理性的,所以在节点 10,I 会选择 L。但现在我们有以下悖论:玩家 I 必须假设玩家 II 在节点 9 会预测玩家 I 在节点 10 的经济上理性的行为,尽管已经到达只有在玩家 I 不经济上理性时才能到达的节点(9)!如果玩家 I 不是经济上理性的,那么玩家 II 就没有理由预测玩家 I 不会在节点 10 选择 R,在这种情况下,不清楚玩家 II 是否应该在 9 选择 R;如果玩家 II 在 9 选择 R,那么玩家 I 将得到比在节点 8 选择 L 时更好的回报。两名玩家都使用向后归纳来解决游戏;向后归纳要求玩家 I 知道玩家 II 知道玩家 I 在经济上是理性的;但玩家 II 只能通过使用一个向后归纳论证来解决游戏,该论证以玩家 I 未按照经济上理性行事为前提。这就是向后归纳的悖论。

文献中解决这一悖论的标准方法是引入所谓的“颤抖的手”(trembling hand),由 Selten(1975)提出。这里的想法是,决策及其随后的行为可能以一定的非零概率“分离”,即使很小。也就是说,玩家可能打算采取某种行动,但在执行过程中出错,导致游戏走向其他路径。如果甚至有可能玩家会犯错误——她的“手可能会颤抖”——那么一个玩家使用向后归纳论证,需要假设另一个玩家已经选择了一个经济上理性的玩家不能选择的路径,就不会引入矛盾。在我们的例子中,玩家 II 可以根据这样的假设来推断在节点 8 时玩家 I 选择了 L,但随后失误会怎么做。

Gintis (2009a)指出,明显的悖论并不仅仅源于我们假设两名玩家在经济上是理性的。它主要取决于另一个前提,即每个玩家必须知道,并且基于这种了解进行推理,即另一个玩家在经济上是理性的。这是每个玩家对于在平衡路径之外的可能发生的事情所作的猜测与之不一致的前提。如果一名玩家相信她的对手在经济上是理性的但可能手颤抖,或者她对他不是经济上理性的可能性附加了一些非零概率,或者她对于他的效用函数的猜测存在一些怀疑,那么她就有理由考虑平衡之外的可能性。正如 Gintis 所强调的那样,通过采用策略性排除原则(SEP)来解决广义形式博弈的问题也是如此:一个玩家没有理由采取纳什均衡策略,除非她期望其他玩家也采取纳什均衡策略。我们将在下文第 7 节回到这个问题。

逆向归纳的悖论,就像均衡完善所引发的难题一样,主要是对于那些将博弈论视为对理性的规范性理论(具体而言,是作为对更大理论——战略理性理论的贡献)的人的问题。非心理学的博弈论学家可以对明显“非理性”的行为及其所鼓励的谨慎给出不同类型的解释。这涉及到诉诸经验事实,即实际的代理人,包括人类,必须学习他们所玩游戏的均衡策略,至少是在游戏变得有些复杂的时候。研究表明,即使是像囚徒困境这样简单的游戏也需要人们的学习(Ledyard 1995, Sally 1995, Camerer 2003, p. 265)。所谓人们必须学习均衡策略,意味着我们在应用揭示偏好理论时必须比之前所示的更加复杂。我们不能仅仅基于单次事件来构建效用函数,而必须基于观察到的行为序列来构建,一旦这些行为序列稳定下来,表明了受试者和所涉及的游戏的学习成熟。再次以囚徒困境为例。人们在日常生活中很少遇到一次性的囚徒困境,但他们会在与非陌生人进行多次重复的囚徒困境。因此,当被置于实验室中旨在进行一次性囚徒困境的情境中时,人们倾向于最初表现得好像游戏是重复囚徒困境的单轮游戏。重复囚徒困境有许多涉及合作而非背叛的纳什均衡。因此,在这种情况下,实验对象倾向于最初合作,但在若干轮之后学会背叛。实验者在看到这种行为稳定下来之前,无法推断她已成功地在实验设置中诱导了一次性囚徒困境。

如果游戏的参与者意识到其他参与者可能需要通过经验来学习游戏结构和均衡,这就给他们理由考虑博弈树形式游戏均衡路径之外发生的事情。当然,如果一个参与者担心其他参与者没有学会均衡,这可能会减弱她自己采取均衡策略的动机。这引发了一系列关于社会学习的深层问题(Fudenberg 和 Levine,1998)。如果复杂的参与者不展示给无知的参与者如何玩均衡,那么无知的参与者如何学会玩均衡?关键的答案在于,当将博弈论应用于人们之间的互动时,年轻人通过在包括文化规范在内的机构网络中成长而接受社会化。人们玩的大多数复杂游戏已经在他们之前社会化的人之间进行,也就是说,他们已经学会了游戏结构和均衡(Ross,2008a)。然后,新手只需模仿那些他人的玩法,这些玩法似乎被其他人期望并理解。机构和规范充满了提醒,包括格言和容易记住的经验法则,以帮助人们记住他们正在做什么(Clark,1997)。

如上文第 2.7 节所述,当观察到的行为在游戏中没有稳定在均衡附近,并且没有证据表明学习仍在进行时,分析者应推断她对所研究的情境建模错误。很可能是她错误地规定了参与者的效用函数、参与者可选择的策略或者可获得的信息。鉴于社会科学家研究的许多情境的复杂性,我们不应对模型的错误规定频繁发生感到惊讶。应用博弈论的理论家必须像他们的研究对象一样进行大量学习。第二次翻译:

反向归纳悖论是一系列悖论中的一个,如果我们将拥有和使用完全信息的概念纳入理性的概念中,就会出现这些悖论。 (类比一下,如果我们假设经济上的理性投资包括完全理性的预期,那么就会出现股市悖论:假设在长期内没有个人投资者能够击败市场,因为市场总是知道投资者所知道的一切;那么没有人有动机去收集有关资产价值的知识;那么也就没有人会收集任何这样的信息,因此从市场知道一切的假设中可以得出结论,市场什么也不知道!) 正如我们将在下面的各种讨论中详细看到的那样,大多数博弈论的应用都明确地纳入了不确定性和玩家学习的前景。我们在上面看到的具有 SPE 的广泛形式博弈实际上是概念工具,帮助我们准备将概念应用于完全和完美信息不寻常的情况。如果我们认为我们想要用博弈论来锐化的概念工具之一是理性本身的一个完全一般的想法,那么我们无法避免这种悖论。但这并不是经济学家和其他将博弈论用于实证建模的科学家所关心的问题。在实际情况下,除非玩家们在过去已经在均衡状态下相互玩过,即使他们都是经济上理性的,都相信对方是如此,我们应该预测他们会对某些玩家之间的博弈结构的理解存在一些正概率的猜测,即使他们经济上理性,也可能经常或甚至通常会表现出他们似乎相信有颤抖的手的行为。

对于不同的代理和不同复杂程度和风险水平的博弈,均衡的学习可能采取各种形式。因此,将其纳入博弈理论模型的交互中引入了一套广泛的新技术。对于最全面发展的一般理论,读者可参考 Fudenberg 和 Levine(1998);同一作者在 Fudenberg 和 Levine(2016)中提供了一个非技术性的问题概述。首先重要的区别在于在重复博弈的回合之间学习特定参数(见第 4 节)与学习关于不同博弈的一般战略期望。后者可以包括对玩家的学习,如果学习者正在根据她对经常遇到的玩家类型的模型更新期望。然后我们可以区分被动学习,其中玩家仅仅根据她对动作和结果的观察更新她的主观先验,以及她从中推断出的战略选择,和主动学习,其中她通过选择检验她对游戏均衡路径的猜测的策略来探究——在技术语言中筛选——其他玩家的策略信息。对于玩家和模型制作者来说,一个主要的困难是,如果玩家也有动机通过行动向其他玩家传递信息,那么筛选动作可能会被误解(见第 4 节)。换句话说:在某些情况下,试图了解策略可能会干扰玩家学习均衡的能力。最后,到目前为止的讨论假设了在博弈中所有可能的学习都是关于游戏本身结构的。Wilcox(2008)表明,如果玩家正在学习关于游戏之外发生的因果过程的新信息,同时试图更新对其他玩家策略的期望,那么模型制作者可能会发现自己超出了技术知识的当前限制。

如上所述,人们通常会表现得好像他们相信手颤抖。这背后的一个非常普遍的原因是,当人们互动时,世界并没有为他们提供关于他们所参与游戏结构的提示卡。他们必须根据他们的社会背景进行猜测和测试。有时,背景由制度规则确定。例如,当一个人走进零售店并看到她想要购买的物品上有价格标签时,她无需猜测或学习就知道自己参与了一个简单的“拿或不拿”的游戏。在其他市场上,她可能知道自己应该讨价还价,并且也知道相关规则。

鉴于学习理论和博弈论之间的复杂关系尚未解决,上述推理似乎暗示了博弈论永远无法应用于对于人类玩家而言是新颖的情境。然而,幸运的是,我们并没有遇到这样的僵局。在一对有影响力的论文中,McKelvey 和 Palfrey(1995 年,1998 年)发展了量化响应均衡(QRE)的解决概念。QRE 并不是 NE 的一种改进,它不是出于哲学动机而试图通过参考理性的规范标准来加强 NE。相反,它是一种计算玩家选择均衡性质的方法,这些玩家对其他玩家的选择可能出现错误的猜测是不确定的。因此,QRE 是实验经济学家工具包中的标准设备,他们试图估计在以游戏为模型的情境中放置的真实人群的效用函数分布。在没有像 Stata(TM)这样的计量经济学软件包允许从有趣的复杂游戏中获得足够强大的观察记录的情况下,QRE 在这方面是不实用的。行为经济学家很少使用 QRE,心理学家几乎不使用 QRE 来分析实验室数据。因此,这些类型的研究经常通过“发现”真实人们在实验游戏中经常无法收敛于 NE 来进行戏剧性的修辞。但是,NE 虽然在某种意义上是一种最简解概念,因为它抽象了很多信息结构,但如果以范畴方式强制实施(即,如果期望玩家表现得好像他们都确定所有其他人都在使用 NE 策略),那么 NE 同时也是一种苛刻的经验期望。与 QRE 一致的预测玩法与 NE 一致,实际上是受到 NE 捕捉战略均衡的核心概念的启发。描述 NE 和 QRE 之间的哲学关系的一种方式如下。NE 定义了一个逻辑原则,非常适合约束思维和构思新的策略来对新的社会现象类进行建模。为了估计真实的经验数据,需要能够统计地定义均衡。QRE 代表了一种这样做的方式,与 NE 的逻辑一致。这个想法非常丰富,以至于它的深度仍然是博弈论研究的一个开放领域。关于 QRE 的当前理解状况在 Goeree、Holt 和 Palfrey(2016 年)中进行了全面的回顾。

3. 不确定性、风险和顺序均衡

到目前为止,我们建模的游戏都涉及玩家在纯策略中进行选择,其中每个玩家在构成最佳回应其他玩家行动的每个节点上寻求单一最优行动。然而,通常情况下,玩家通过使用混合策略来优化其效用,即她在几种可能行动中抛掷加权硬币。(我们将在后面看到,混合还有一种替代解释,不涉及特定信息集上的随机化;但我们将从抛硬币的解释开始,并在第 3.1 节中进一步发展。)只有当没有纯策略能够最大化玩家对所有对手策略的效用时,才需要使用混合策略。我们在第 1 节中的过河游戏就是一个例子。正如我们所见,该游戏中的难题在于,如果逃犯的推理选择了一个特定的桥梁作为最优选择,那么他的追捕者必须能够复制那种推理。只有当逃犯的追捕者无法可靠地预测他将使用哪座桥时,逃犯才能逃脱。两位玩家在逻辑推理能力上的对称性确保了只有当逃犯能够让自己感到惊讶时,他才能让追捕者感到惊讶。

假设我们暂时忽略岩石和眼镜蛇,想象一下桥都是同样安全的。还假设逃犯没有关于追捕者的特殊知识,可能导致他冒险做出特别的策略概率分布推测。在这种情况下,逃犯最好的选择是掷一个三面骰子,每一面代表一个不同的桥(或者更常规的是,掷一个六面骰子,其中每个桥由两个面代表)。然后他必须事先承诺使用这个_随机设备_选择的任何桥。这样就固定了他的生存几率,无论追捕者做什么;但由于追捕者没有理由偏好任何可用的纯策略或混合策略,而且在任何情况下,我们都假设她的认识情况与逃犯的情况对称,我们可以假设她会掷一个自己的三面骰子。现在逃犯有 2/3 的概率逃脱,追捕者有 1/3 的概率抓住他。逃犯和追捕者都无法改善自己的几率,考虑到对方的随机混合,所以两个随机策略处于纳什均衡状态。注意,如果_一个_玩家正在随机化,那么另一个玩家对_任何_桥的概率混合都一样好,因此有无限多种最佳回答的组合。然而,每个玩家都应该担心除了随机策略之外的任何策略可能会与对方可以检测和利用的某些因素协调。由于任何非随机策略都可以被另一个非随机策略利用,在零和游戏(如我们的例子)中,只有随机策略的向量是纳什均衡。

现在让我们重新引入参数因素,即桥#2 上的落石和桥#3 上的眼镜蛇。同样,假设逃犯肯定能安全地穿过桥#1,有 90%的机会穿过桥#2,有 80%的机会穿过桥#3。如果我们对两个玩家的效用函数作出一些假设,我们可以解决这个新的游戏。假设玩家 1,即逃犯,只关心生死(更喜欢生存而不是死亡),而追捕者只希望能够报告逃犯已经死亡,而不是报告他逃脱了。(换句话说,没有一个玩家关心逃犯_如何_生活或死亡。)现在先假设两个玩家都不因承担更多或更少的风险而获得任何效用或不利效用。在这种情况下,逃犯只需采用他最初的随机化公式,并根据三座桥的不同参数危险程度加权。每座桥都应被视为逃犯可能结果的_抽奖_,每个抽奖在他的效用函数中有不同的_预期收益_。

从追捕者的角度考虑问题。当她选择概率组合使逃犯对可能的纯策略都感到漠不关心时,她将使用她的 NE 策略。对于逃犯来说,有石头的桥比安全桥更危险 1.1 倍。因此,当追捕者在安全桥等待的概率是在有石头的桥等待的概率的 1.1 倍时,他会对这两座桥感到漠不关心。眼镜蛇桥对逃犯来说比安全桥更危险 1.2 倍。因此,当追捕者在安全桥等待的概率比她在眼镜蛇桥等待的概率高 1.2 倍时,逃犯会对这两座桥感到漠不关心。假设我们用 s1、s2 和 s3 来表示逃犯在每座桥上的参数生存率。那么,追捕者通过调整她在这些桥等待的概率 p1 和 p2,使得任意一对桥上的净生存率最小化。

s1(1−p1)=s2(1−p2)

由于 p1+p2=1,我们可以将其重写为

s1×p2=s2×p1

所以

p1s1=p2s2.

因此,追求者通过解决以下同时方程组来找到她的 NE 策略:

1(1−p1)=0.9(1−p2)=0.8(1−p3)p1+p2+p3=1

然后

p1=49121p2=41121p3=31121

现在让 f1,f2,f3 代表逃犯选择每座桥的概率。然后逃犯通过解决 s1×f1=s2×f2=s3×f3 来找到他的 NE 策略。

s1×f1=s2×f2=s3×f3

so

1×f1=0.9×f2=0.8×f3

与之同时

f1+f2+f3=1

Then

f1=36121f2=40121f3=45121

这两组 NE 概率告诉每个玩家在掷骰子之前如何权衡自己的骰子。请注意,也许令人惊讶的是,逃犯虽然假设他不从赌博中获得乐趣,但使用风险更高的桥梁的概率更高。这是使追捕者对她监视哪座桥都漠不关心的唯一方法,而这反过来又最大化了逃犯生存的概率。

我们能够直接解决这个游戏,因为我们设置了效用函数,使其成为零和,或者严格竞争。也就是说,一个玩家在预期效用上的任何增益都代表着另一个玩家的完全对称的损失。然而,这种条件通常可能不成立。现在假设效用函数更加复杂。追捕者最喜欢的结果是她射杀逃犯,因此声称对他的逮捕负责,而不是他死于坠石或被蛇咬;她更喜欢第二种结果,即逃犯死于坠石或被蛇咬,而不是逃脱。逃犯更喜欢被枪杀的快速死亡,而不是被压死或与眼镜蛇相遇的恐惧。当然,最重要的是,他更喜欢逃脱。可以合理地假设,逃犯更关心生存,而不是更关心以某种方式被杀。我们无法像以前那样简单地根据了解玩家的顺序效用函数来解决这个游戏,因为他们各自偏好的强度现在与他们的策略相关。

冯·诺伊曼和莫根斯特恩(1947)的工作之前,这类情况对分析师来说本质上是令人困惑的。这是因为效用并不表示像快乐这样的隐藏的心理变量。正如我们在 2.1 节中讨论的那样,效用仅仅是对相对行为倾向的度量,假定了关于偏好和选择之间关系的一致性假设。因此,想象比较我们玩家的基数——也就是,强度敏感的——偏好是毫无意义的,因为我们无法使用独立的、跨个体恒定的标尺。那么,我们如何能够对基数信息相关的博弈进行建模呢?毕竟,对博弈进行建模要求同时考虑所有玩家的效用,正如我们所见。

冯·诺伊曼和莫根斯特恩(1947)的工作的一个关键方面是解决了这个问题。在这里,我们将简要概述他们的巧妙技术,用序数函数构建基数效用函数。需要强调的是,接下来的内容仅仅是一个概要,以便让你作为一个对博弈论的哲学基础以及它所涉及的问题范围感兴趣的学生,对基数效用不再感到神秘。提供一个指导手册,让你能够构建自己的基数效用函数,需要很多页。这样的手册在许多教科书中都可以找到。

假设我们现在为过河逃犯分配以下顺序效用函数:

逃生 ≫4 被枪击致死 ≫3 被岩石坠落致死 ≫2 被蛇咬致死 ≫1

我们假设他对逃生胜过任何形式的死亡的偏好要强于他在死亡原因之间的偏好。这应该在他的选择行为中得到体现。在像是渡河博弈这样的情境中,他应该愿意冒更大的风险,以增加逃生相对于射击的概率,而不是增加射击相对于被蛇咬的概率。冯·诺伊曼和莫根斯滕(1947)对基数化问题的解决方案中,这一点逻辑是关键的洞察力。

假设我们要求逃犯从可用的结果集中选择一个最好的和一个最差的。‘最好’和‘最差’是根据预期收益来定义的,就像我们目前的零和博弈示例中所说明的那样:如果一个玩家在选择只包含两种可能奖品的抽签时,总是选择以最大化最佳结果的概率(称之为 W)和最小化最差结果的概率(称之为 L)来最大化他的预期收益。现在想象扩大可能奖品的范围,使其包括代理人认为介于 W 和 L 之间的奖品。我们发现,对于包含这种奖品的一组结果,存在一个关于它们的抽签,使得我们的代理人对该抽签和仅包含 W 和 L 的抽签之间持中立态度。在我们的例子中,这是一个包括被射击和被岩石压死的抽签。称这个抽签为 T。我们定义一个效用函数 q=u(T),将结果映射到实数(而不是顺序)数轴,如果 q 是 T 中的预期奖品,那么代理人对赢得 T 和赢得一个包含 W 以概率 u(T)和包含 L 以概率 1−u(T)的抽签 T∗ 持中立态度。假设代理人的行为遵守复合抽签减少原则(ROCL)——也就是说,他在考虑更复杂的抽签而不是简单的抽签时不会获得或失去效用——T 中结果到 uT∗ 的映射集合给出了一个冯·诺伊曼-莫根斯滕效用函数(vNMuf),它在 T 中的所有结果上具有基数结构。

我们到底做了什么?我们给了我们的代理人在抽签中的选择,而不是直接确定结果,观察他为改变得到一种形式的死亡的几率相对于另一种形式的死亡的几率而愿意承担多少额外的死亡风险。请注意,这将代理人的偏好结构基于代理人特定的参考点 W 和 L 进行了基数化;该程序并未揭示有关代理人之间比较额外顺序偏好的任何信息,这有助于澄清构建 vNMuf 并未引入潜在客观的心理因素。此外,在一个游戏中的两个代理人,或者在不同环境下的一个代理人,可能表现出不同的风险态度。也许在渡河游戏中,生命并未受到威胁的追捕者会喜欢冒险追求荣耀,而我们的逃犯则谨慎小心。然而,在分析渡河游戏时,我们不必能够比较追捕者的基数效用与逃犯的基数效用。毕竟,只要他们能够估计彼此将分配给对方行动的概率,两个代理人都可以找到他们的 NE 策略。这意味着每个人都必须了解两个 vNMuf;但他们都不需要试图比较评估他们选择的结果。

现在,我们可以填写我们在第 2 节中开始绘制的渡桥游戏的矩阵的其余部分。如果两个玩家都是风险中立的,并且他们的显性偏好符合 ROCL,那么我们有足够的信息来能够分配预期效用,通过将原始回报乘以相关概率来表达,作为矩阵中的结果。假设猎人在眼镜蛇桥等待的概率为 x,在岩石桥等待的概率为 y。由于她在三座桥上的概率必须总和为 1,这意味着她必须以概率 1−(x+y)在安全桥上等待。然后,继续分配逃犯如果死亡则得到 0 的回报,如果逃脱则得到 1 的回报,而猎人则得到相反的回报,我们的完整矩阵如下:

图 12

现在我们可以直接从矩阵中读取关于游戏的以下事实。没有一对纯策略是对方的最佳回应对。因此,游戏的唯一纳什均衡需要至少一名玩家使用混合策略。

3.1 信念和主观概率

在我们迄今为止的所有例子和工作中,我们假设玩家对彩票中的概率的信念与客观概率相匹配。但在真实的互动选择情境中,代理人经常必须依赖于他们对概率的主观估计或感知。在二十世纪行为和社会科学领域做出了最伟大贡献之一的 Savage (1954) 展示了如何将主观概率及其与风险偏好的关系纳入冯·诺依曼-摩根斯坦期望效用理论的框架中。事实上,Savage 的成就相当于正式完成了 EUT。然后,十多年后,Harsanyi (1967) 展示了如何解决涉及 Savage 期望效用最大化者的博弈。这经常被视为博弈论真正成熟的标志,成为应用于行为和社会科学的工具,并且在 1994 年 Harsanyi 与 Nash 和 Selten 一起成为首批获得诺贝尔奖的博弈论学者之一时得到了认可。

正如我们在考虑玩游戏的人需要学习颤抖手均衡和 QRE 时所观察到的那样,当我们对人们的战略互动建模时,我们必须考虑到人们通常对彼此的模型存在不确定性。这种不确定性反映在他们选择的策略上。此外,有些行动可能是为了了解玩家对其他玩家的猜测准确性而采取的。Harsanyi 对博弈论的扩展包含了这些关键要素。

考虑下面这个三人不完全信息博弈,被称为“Selten 的马”(以其发明者、诺贝尔奖得主 Reinhard Selten 和树的形状命名;摘自 Kreps(1990),第 426 页):

图 13

这个博弈有四个纳什均衡:(L, l2, l3), (L, r2, l3), (R, r2, l3) 和 (R, r2, r3)。考虑这四个纳什均衡中的第四个。这是因为当玩家 I 选择 R,玩家 II 选择 r2 时,玩家 III 的整个信息集都偏离了游戏路径,而玩家 III 的行动对结果没有影响。但是,如果玩家 III 能区分处于节点 13 和节点 14 之间的区别,玩家 I 就不会选择 R。游戏的结构鼓励玩家 I 努力向玩家 III 提供能够打开她封闭信息集的信息。玩家 III 应该相信这些信息,因为游戏的结构表明玩家 I 有动机真实地传达这些信息。游戏的解决方案将是(现在)完全信息游戏的序贯均衡路径:(L, r2, l3)。

认为博弈论是一般理性规范理论的一部分的理论家,例如大多数哲学家和经济学家中的完善计划爱好者,他们追求一种能够根据一般原则确定解的策略。注意 Selten 的《Horse》中的第三位玩家可能会对他选择的策略产生怀疑。“考虑到我有一次行动机会,我的行动节点是从节点 11 还是节点 12 到达的?”换句话说,第三位玩家在节点 13 或 14 的条件概率是多少,假设他有一次行动机会?现在,如果第三位玩家所关心的是条件概率,那么当第一位和第二位玩家选择他们的策略时,他们可能会对什么进行推测呢?那就是第三位玩家对这些条件概率的信念。在这种情况下,第一位玩家必须推测第二位玩家对第三位玩家的信念,第三位玩家对第二位玩家的信念等等。这里相关的信念不仅仅是战略性的,因为它们不仅仅是关于玩家在给定一组收益和游戏结构的情况下会做什么,而是关于他们应该期望其他玩家使用的条件概率的理解。

玩家之间对条件概率的何种信念是合理的?如果我们遵循 Savage(1954)的观点,我们会建议作为一种规范原则,他们应该推理并期望其他人按照贝叶斯定理进行推理。这告诉他们如何计算事件 F 在给定信息 E 的情况下的概率(写作 'pr(F∣E)'):

pr(F∣E)=pr(E∣F)×pr(F)pr(E)

Bayes's Rule 在下面的例子中将被用于工作。但首先,让我们对它在博弈论中的一般意义进行一些理论讨论是有必要的。在第 2.8 节中,我们看到当玩家有学习的机会时,博弈论会引入一系列复杂性。这是一个轻描淡写的陈述:在过去的四十年里,博弈论中的大部分理论文献都涉及到这些复杂性。这部分是因为这些问题是深刻而困难的,部分是因为大多数实际的战略情况,博弈论最有用的应用情况,确实需要玩家进行学习。当人们(或其他动物)陷入战略互动时,世界通常不会提供关于博弈结构的明确信息。特别是,它不会将玩家的效用函数刻在他们的额头上。当玩家不确定他们所玩游戏的结构时,这取决于所有玩家的效用向量,我们说他们的信息是不完全的。

此外,玩家可能不了解与他们的策略选择相关的一些参数概率分布。在刚讨论的渡河游戏的例子中,我们假设两名玩家事前知道(即在选择他们的策略时)岩石掉落和眼镜蛇袭击的概率。在实际想象的情况下,这是不太可能的。两名玩家可能会研究一段时间有关危险事件的概率分布的风险桥。但是,除非样本非常大且概率是稳定的(例如,岩石掉落不会因为更多暴露的岩石掉落而变得不太频繁),否则估计可能会存在偏差。当玩家对参数性的偶然性感到不确定时,我们通过在广泛形式的游戏中增加一个额外的玩家来对此进行建模,通常称为“自然”,该玩家没有效用函数,因此对游戏结果没有利害关系,并且根据某些指定的概率分布随机地进行行动。我们可以允许战略性玩家(即自然以外的玩家)可能不知道自然为他们选择了什么行动而不得不做出选择,方法是将自然的行动范围放在单个信息集内,就像我们在广泛形式的游戏中对战略选择做的那样,其中一些行动是同时进行的,就像上图 13 中一样。然后,玩家对参数因素的不确定性被建模为信息不完全。

最后,如果战略性玩家对不确定参数的估计是独立的,每个玩家的估计对另一个玩家来说都有潜在的信息作用。在重复游戏中,玩家可以通过观察彼此的选择来获取有关参数概率的估计。例如,假设在我们的渡河游戏中有一系列逃犯,成功逃跑者向后来的人发送报告。现在想象一下,追捕者惊讶地发现逃犯选择岩石桥的频率远低于她的预期。如果她假设逃犯在经济上是理性的,那么她应该更新她对岩石掉落概率的估计;显然,这个概率太低了。然后,当然,她应该相应地调整她的策略。这些信息对追捕者和逃犯都是可得的,因此随着更新的进行,游戏的均衡发生变化。特别是,由于更新减少了先前的不确定性程度,与均衡相容的结果范围缩小,因此现实生活中的代理人更有可能找到均衡。

因为贝叶斯定理是一种用于指导学习的原则,它与至少一些玩家拥有不完全或不完美信息的博弈相关。对于仅涉及不完美信息的情况,遵循或修改了萨维奇公理的主观期望效用理论直接适用。这是本节剩余部分的主题。不完全信息提出了更深层次的挑战,我们将在后面的章节中进行讨论。但是,我们上面的重复博弈示例允许贝叶斯定理的一个特别有趣且强大的应用。如果玩家们知道其他玩家在更新信念时遵循贝叶斯定理,并且效用仅依赖于信息,那么当玩家们收到共享信号时,他们可以通过确定奥曼(1974 年,1987 年)所称的“相关均衡”来共同解决他们的战略问题。

现在,为了说明在最简单的情况下如何使用贝叶斯定理,即在没有自然环境的广义博弈中的不完美信息,我们将从塞尔滕的马(即图 13)开始。如果我们假设玩家的信念与贝叶斯定理一致,那么我们可以将顺序均衡定义为该博弈的解。顺序均衡由两部分组成:(1)对于每个玩家的策略配置 §,与之前一样,以及(2)对于每个玩家的信念系统 μ。μ 将每个信息集 h 分配给 h 中节点的概率分布,并解释为玩家 i(h)关于她所在信息集的位置的信念,假设已经到达信息集 h。然后,顺序均衡是一组与贝叶斯定理一致的策略配置 § 和信念系统 μ,使得从树中的每个信息集 h 开始,玩家 i(h)在之后的每个决策点上都能够最优地进行决策,前提是她对先前发生的事情的信念由 μ(h)给出,并且对于后续移动将发生的事情由 § 给出。

重新考虑我们先前为塞尔滕的《马》(R,r2,r3)确定的 NE。假设玩家 III 分配 pr(1)给她的信念,即如果她得到一个机会,她就在节点 13。那么玩家 I,鉴于一致的 μ(I),必须相信玩家 III 会玩 l3,这种情况下她唯一的 SE 策略是 L。因此,尽管(R,r2,l3)是一个 NE,但它不是一个 SE。

在这个例子中使用一致性要求有点琐碎,所以现在考虑第二种情况(也取自 Kreps (1990),第 429 页):

图 14

假设玩家 I 选择 L,玩家 II 选择 l2,玩家 III 选择 l3。假设 μ(II)给节点 16 分配概率(.3)。在这种情况下,l2 对玩家 II 来说不是一个均衡策略,因为 l2 的预期收益为.3(4)+.7(2)=2.6,而 r2 的预期收益为 3.1。请注意,如果我们调整玩家 III 的策略配置,同时保持其他一切不变,l2 可能会成为玩家 II 的均衡策略。如果 §(III)以概率(.5)选择 l3,以概率(.5)选择 r3,那么如果玩家 II 选择 r2,他的预期收益现在将为 2.2,因此(L,l2,l3)将成为一个均衡策略。现在想象将 μ(III)恢复原状,但改变 μ(II),使得玩家 II 认为处于节点 16 的条件概率大于.5;在这种情况下,l2 再次不是一个均衡策略。

希望现在 SE 的概念已经清楚了。我们可以将其应用到过河游戏中,以一种避免追逐者翻转任何硬币的方式,只需稍微修改游戏。现在假设追逐者在逃犯通过时可以在三座桥上改变两次,并且只有在她在逃犯离开桥时遇到他才会抓住他。那么追逐者的 SE 策略是根据第 3 节第 3 段中方程式所给出的比例在三座桥上分配她的时间。

必须注意,由于贝叶斯定理不能应用于概率为 0 的事件,因此将其应用于 SE 要求玩家对广义形式中所有可用行动分配非零概率。这一要求通过假设所有策略配置都是严格混合的来捕捉,也就是说,在每个信息集上的每个行动都以正概率被采取。您会发现,这只是相当于假设所有人有时会手颤抖,或者说没有期望是完全确定的。如果在平衡状态下玩的所有策略都是对严格混合的策略的最佳回应,那么 SE 被称为颤抖手完美。您也不会感到意外被告知,没有弱支配策略可以是颤抖手完美的,因为手颤抖的可能性给玩家最有力的理由来避免这样的策略。

如何理解 NE 既是行动平衡又是信念平衡这个概念呢?数十年的实验研究表明,当人类主体进行游戏时,尤其是那些理想情况下需要使用贝叶斯规则来推断其他玩家信念的游戏时,我们应该期待策略响应的显著异质性。通常会有多种信息渠道将不同的代理与他们环境中的激励结构联系起来。一些代理可能实际计算出平衡,误差多少不一。其他人可能会在误差范围内稳定下来,通过更或者少的近视条件学习,这些误差范围可能围绕着平衡值随机漂移。还有其他人可能通过模仿其他代理的行为或遵循嵌入在文化和制度结构中的经验法则来选择响应模式,这些法则代表了历史上的集体学习。请注意,这里的问题特定于博弈论,而不仅仅是对更一般的观点的重述,这些观点适用于任何行为科学,即从理想理论的角度来看,人们的行为都是嘈杂的。在给定的游戏中,即使是经过训练、自我意识、计算资源充足的代理人,如果他或她预期其他人也会偏离 NE 策略,那么他或她是否认为自己会选择 NE 策略就取决于他或她预期其他人会做同样的事情。如果她预计一些其他玩家会偏离 NE 玩法,这可能会成为她自己偏离的理由。与其预测人类玩家会揭示严格的 NE 策略,不如经验丰富的实验者或建模者预期他们的游戏行为与偏离 NE 的预期成本之间存在关系。因此,观察到的行动的最大似然估计通常会认为 QRE 提供了比任何 NE 更好的拟合度。

以这种方式处理实证数据的分析师不应被解释为在“测试假设”,即分析中的代理是否“理性”。相反,她猜测他们是代理人,也就是说,她们的行为统计模式的变化与一些对可能目标状态的风险加权的基数排序之间存在系统性关系。如果代理是人或组织结构化的人群,彼此监控并被激励尝试集体行动,那么这些猜测通常会被批评者视为合理,甚至可以说是实用上毋庸置疑的,即使总是可以推翻,因为存在哲学家有时考虑的奇怪的未知环境(例如,明显的人类是预先编程的机械模拟体,只有当环境激励响应不写入其程序时才会显露出来)。分析师可能会假设所有的代理都按照 Savage 的期望效用理论对激励变化做出反应,尤其是如果代理是已经在市场竞争的规范要求条件下学习了反应机制的公司。如果分析师的受试者是个人,尤其是如果他们处于相对于文化和制度经验的非标准环境中,那么她可能更明智地估计一个允许一系列不同效用结构统治她的选择数据的最大似然混合模型。思考的方式是这样的。适用于样本中某些人的每个效用模型描述了一个数据生成过程(DGP)。这些不同的 DGPs 交互在游戏中产生结果。当数据用于估计混合模型时,她会了解到,她所假设的各种 DGPs 中哪些最好地估计了她的假设数据的比例(前提是在她的数据中,她的模型足够好以确定它们)。这一切都是为了说,博弈论的运用并不迫使科学家实证应用一个可能太精确和狭窄以至于无法合理适应真实战略互动的模型。一个优秀的应用博弈论者也应该是一位受过良好教育的计量经济学家。

一个至关重要的警告,在第 8 节我们将回到这个问题,就是当我们将博弈论应用于代理人有机会学习的情况时,因为他们的信息是不完全或不完整的,我们必须决定是否合理地期望代理人使用贝叶斯规则更新他们的信念。如果我们认为在这种期望中没有经验上的正当理由,那么我们可能会期望代理人采取除了直接探测参数或战略环境之外没有战略目的的行动。这给所有玩家带来了一种特殊的额外不确定性的来源:另一个玩家的行动是用来探测还是直接获取效用?处理必须考虑这种不确定性的应用需要相当的数学专业知识,如 Fudenberg 和 Levine(1998)中所述,并在 Fudenberg 和 Levine(2008)中进行了更新。由此产生的建模自由度范围使得涉及非贝叶斯学习的情况对应用博弈论学家来说是棘手的,他们很难预测;通常,她最好能做的就是解释事后发生了什么。(值得补充的是,这样的解释对于推广到新案例以及参与者或监管机构希望改变结果至关重要。)读者可能会认为这必须是标准情况:人们中大多数人从未听说过贝叶斯规则,更不用说使用它来计算预测了,他们会按照规则学习并预期与之互动的人也会这样做吗?但是对于这种怀疑的基础有一个回应。大多数动物,包括人类,在行为上没有明确的知识。就贝叶斯学习而言,来自神经科学的越来越多的证据表明,神经皮层学习与老年脑区的学习之间的区别在于前者基本上是贝叶斯的(Clark 2016; Parr et al 2022)。这在解释上是有道理的:贝叶斯学习是情境灵活的学习,提供这种学习能力几乎可以肯定是导致新皮层随时间增长的功能,这种功能在一些社会智能动物中导致了新皮层的增长,并在现代人类的大脑皮层神经元中获得了显著更多的电池(Godfrey-Smith 1996)。一个合理的推测是,人们无论是否意识到,都是贝叶斯学习者。

博弈论学家可以直接利用贝叶斯学习来进行自己建模的元层分析。前文建议应用博弈论的学者应该估计最大似然混合模型,以捕捉人群中异质的风险偏好结构。在现有文献中,这是目前的最新技术。但它有一个限制:结果对于模型师关于包含在混合模型中的哪些模型的自由度敏感,并且没有确定的这类模型的分类法。如果理论家使用分层贝叶斯模型(参见 Kruschke 2014; McElreath 2020),则可以消除对这种不原则自由度的需求。采用这种方法并不要求博弈论学家成为专业编码人员,因为这类模型的例程现在已经包含在经济学家的标准计量经济学软件包 Stata(TM)中。这为实际战略互动的博弈论模型的能力和准确性提供了实质性的潜在改进,并且是未来研究的一个有吸引力的目标。

4. Repeated Games and Coordination

到目前为止,我们已经将注意力集中在一次性博弈上,也就是说,在这种博弈中,玩家的战略考虑不会延伸到他们单次互动的终端节点之外。然而,博弈经常是在考虑未来博弈的情况下进行的,这可能会显著改变它们的结果和均衡策略。本节中我们的主题是重复博弈,也就是说,玩家组合期望在多次类似情况下面对彼此的博弈。我们首先通过重复囚徒困境的有限背景来探讨这些问题。

我们已经看到,在一次性的 PD 中,唯一的纳什均衡是相互背叛。然而,如果玩家们期望在未来的 PD 中再次相遇,情况可能就不同了。想象一下,有四家制造小部件的公司同意通过共同限制供应来保持高价格。(也就是说,它们组成了一个卡特尔。)只有在每家公司保持其约定的生产配额时,这种做法才会奏效。通常情况下,每家公司都可以通过超出其配额而使其他公司保持配额来最大化其利润,因为这样一来,它就可以以更高的市场价格销售更多的产品,这是由于几乎完整的卡特尔带来的。在一次性情况下,所有公司都会有这种背叛的动机,卡特尔会立即崩溃。然而,这些公司期望在长期内面对彼此的竞争。在这种情况下,每家公司都知道,如果它打破了卡特尔协议,其他公司可以通过长到足以消除其短期收益的低价对其进行惩罚。当然,惩罚公司在低价期间也会遭受短期损失。但如果这些损失可以帮助重新建立卡特尔并带来最大限度的长期价格,那么这些损失可能是值得承受的。

一个简单而著名的(但与广泛传播的神话相反,并非必然最优的)在重复的 PD 中保持合作的策略是所谓的“以牙还牙”。这种策略告诉每个玩家要按照以下方式行事:

  1. 第一轮始终合作。

  2. 之后,采取与对手上一轮相同的行动。

一组玩家都在玩“以牙还牙”游戏,永远不会出现任何叛变。因为在其他人都在玩“以牙还牙”的人群中,没有一个“以牙还牙”玩家能够通过采用另一种策略来更好地(严格地)做到这一点,每个玩“以牙还牙”的人都是一个纳什均衡。你可能经常听到一些懂一点(但不够)博弈论的人谈论得好像这就是故事的结局。这一点根本不是。有三个主要的复杂性。

首先,最根本的是,每个人都在玩“以牙还牙”并不是唯一的纳什均衡。许多其他策略,比如 Grim(合作,直到被其他玩家叛变,然后永远无条件地反叛该叛徒)和 Tit-for-two-tats(合作,直到被某个玩家叛变两次,然后在恢复合作之前反叛一次)出现在各种纳什均衡组合中。一般来说,并不要求所有玩家使用相同的策略来实现均衡。对“以牙还牙”能够宣称的更有限的优点是,它是一种简单的策略,平均而言对人们倾向于选择的策略表现良好,这一点可以根据实际与真实人员进行的锦标赛的证据来证明。但这也适用于 Grim。而“以牙还牙”可能被说成是“友好”的,因为它宽恕冒犯,而 Grim 则相反。一般来说,如果玩家不知道游戏的哪一轮将是最后一轮,直到他们到达那里,那么在大人群中有无限组合的策略是重复博弈中的均衡。

这最后一点是我承诺要指出的第二个复杂性。在重复的囚徒困境中合作,玩家必须对他们的互动何时结束感到不确定。假设玩家们知道最后一轮是什么时候。在那一轮中,玩家们选择背叛将最大化效用,因为不可能进行任何惩罚。现在考虑倒数第二轮。在这一轮中,玩家们也面临着因为预计在最后一轮会背叛而不会受到背叛惩罚的情况。所以他们在倒数第二轮选择了背叛。但这意味着他们在倒数第三轮也不会面临背叛的威胁,于是他们也在那里背叛。我们可以简单地通过博弈树向后迭代,直到达到第一轮。由于在那一轮合作不是 NE 策略,所以在重复博弈中“以牙还牙”也不再是 NE 策略,结果就是互相背叛,与一次性囚徒困境一样。因此,在重复的囚徒困境中只有当预期的重复次数不确定时,合作才可能发生。(当然,这适用于许多现实生活中的游戏。)注意,在这种情况下,对期望的任何程度的不确定性,或者可能的颤抖手,都有助于合作,至少在一段时间内是这样。在实验中,当人们玩已知结束点的重复囚徒困境时,他们确实倾向于在一段时间内合作,但随着经验的积累,他们会更早地学会背叛。

现在我们引入第三个复杂性。假设玩家们区分背叛和合作的能力是不完美的。考虑我们的小工具卡特尔案例。假设玩家们观察到小工具的市场价格下跌。也许这是因为一个卡特尔成员作弊了。或者也许这是由于外生的需求下降导致的。如果以牙还牙的玩家将第二种情况误认为是第一种情况,他们就会背叛,从而引发一系列互相背叛的连锁反应,而他们将永远无法恢复,因为每个玩家都会对第一个遇到的背叛作出背叛的回应,从而导致进一步的背叛,依此类推。

如果玩家知道存在这种误传的可能性,他们就有动机采用更复杂的策略。特别是,他们可能会准备好有时冒险在背叛之后合作,以测试他们的推断。然而,如果他们太宽容,其他玩家就可以通过额外的背叛来剥削他们。一般来说,随着策略变得更加复杂,发生这种情况的游戏的玩家会遇到更加困难的学习挑战。因为更复杂的策略对其他玩家的推断更加困难(因为它们与更多变和复杂的可观察行为模式相容),它们的使用增加了误传的可能性。但误传正是导致重复博弈合作均衡首先瓦解的原因。围绕信息信号、筛选和推断的复杂性有助于直观地解释民间定理,之所以如此称呼是因为没有人确定是谁首先意识到它,在重复博弈中,对于任何策略 S,存在其他玩家策略的可能分布,使得 S 和这些其他策略的向量是一个纳什均衡。当批评者批评将博弈论应用于行为科学、社会科学和商业案例时,抱怨所涉及的应用假设人们推断能力的水平不切实际,这就是他们所指的。在第 5 节中,我们将考虑一种回应这种关注的方式。

Real, complex, social and political dramas are seldom straightforward instantiations of simple games such as PDs. Hardin (1995) offers an analysis of two tragically real political cases, the Yugoslavian civil war of 1991–95, and the 1994 Rwandan genocide, as PDs that were nested inside coordination games.

协调博弈发生在两个或更多玩家通过彼此做相同的事情来最大化效用的情况下,而这种对应对他们来说比他们所做的具体事情更重要。一个标准的例子是道路交通规则:‘都靠左行驶’和‘都靠右行驶’都是纳什均衡,而且两者之间没有更有效率的。在“纯”协调游戏中,使用更具选择性的均衡标准甚至都没有帮助。例如,假设我们要求我们的玩家根据贝叶斯定理进行推理(见上文第 3 节)。在这种情况下,对于任何在纳什均衡中可用的混合策略向量的任何最佳回应策略都被称为是合理化的。也就是说,玩家可以找到其他玩家的一组信念系统,使得游戏沿着均衡路径的任何历史都与该信念系统一致。纯协调游戏的特点是合理化策略的向量是非唯一的。诺贝尔奖获得者托马斯·谢林(1978)推测,并且通过实验证明,在这种情况下,玩家可能会试图通过寻找焦点来预测均衡,也就是说,他们相信某些策略的特征将对其他玩家产生显著影响,并且他们相信其他玩家会相信这些特征对他们来说是显著的。例如,如果两个人想在某一天在一个大城市见面,但无法联系对方安排具体的时间和地点,两人都可能明智地在中午去城市最显著的市中心广场。一般来说,玩家彼此了解得越多,或者他们观察彼此的战略行为的次数越多,他们成功找到协调的焦点的可能性就越大。

协调确实是引起哲学家广泛关注的博弈论应用的第一个主题。1969 年,哲学家大卫·刘易斯(1969)发表了《约定》,其中将博弈论的概念框架应用于 20 世纪认识论的一个基本问题,即语义规范的性质和范围以及它们与命题信念的合理化之间的关系。可以用一个简单的例子来捕捉基本的洞察力。单词‘chicken’表示鸡,‘ostrich’表示鸵鸟。如果‘chicken’表示鸵鸟,‘ostrich’表示鸡,我们不会好坏;但是,如果我们中有一半人用第一种方式使用这对词,另一半人用第二种方式使用这对词,或者我们所有人在它们之间随机选择来指代一般的不会飞的鸟,我们就会变得更糟。当然,这种洞察力早在刘易斯之前就已经存在;但他所认识到的是这种情况具有协调博弈的逻辑形式。因此,虽然特定的约定可能是任意的,但稳定和维持它们的互动结构并不是。此外,参与名词含义协调的均衡似乎只有一个任意元素,因为我们无法对它们进行帕累托排序;但米利坎(1984)暗示表明,在这方面,它们在语言协调中是非典型的。它们当然是协调约定的非典型,这一点让刘易斯被“关于‘约定’的‘含义’的‘语义直觉’”过分高估所误导(巴哈拉赫 2006 年,罗斯 2008a)。

Ross & LaCasse (1995) 提出了以下现实生活中的协调博弈例子,其中 NE 不是帕累托无差异的,但是帕累托劣势的 NE 更常见。在一个城市里,司机必须就交通信号灯的行为协调选择两个 NE 中的一个。要么所有人都必须遵循的策略是在黄灯时冲过去试图赛过红灯变绿灯时停下来,等待绿灯亮起后再继续前进,要么所有人都必须遵循的策略是在黄灯时减速,在绿灯亮起时立即启动。这两种模式都是 NE,因为一旦一个社区在其中一个模式上协调了,那么没有个体有动机偏离:那些在其他人匆匆赶路时减速的人会被追尾,而那些在另一个均衡上匆匆赶路的人则会冒与那些立即启动的人碰撞的风险。因此,一旦一个城市的交通模式定下来了,它就会趋于保持在那里。实际上,这就是世界各城市观察到的两种模式。然而,这两个均衡并不是帕累托无差异的,因为第二个 NE 允许在左驾驶辖区的每个周期内更多的汽车左转,在右驾驶辖区的每个周期内更多的汽车右转,这减少了城市道路网络中拥堵的主要原因,并使所有驾驶员都能够期待更高的出行效率。不幸的是,由于我们只能推测更多的实证工作和分析,远比帕累托优势的 NE 上锁的城市要多。

在这种情况下,维持协调博弈均衡很可能必须由稳定的社会_规范_支持,因为玩家是匿名的,并且定期有机会通过背离支持当前均衡来获得一次性优势。正如许多作者所观察到的那样(但特别参见 比切里 2006宾莫尔 2005a),一个稳定的规范必须本身描述玩家在博弈均衡中的行为,或者至少一个玩家会被激励违反规范。但是,正如 Guala(2016) 所指出的,要在协调博弈中帮助玩家共同找到均衡,规范必须_更多地_不仅仅是一个均衡描述;它还必须充当_规则_。Guala 所指的是,规范必须对有关相关社会中的行为的期望进行编码,这些期望是玩家所知道的,如果遵循了这些期望,将得到社会的赞同,如果违反了这些期望,将受到社会的制裁(例如八卦、排斥、起诉、私刑)。人类的生物遗传使大多数人_内化_了一些规范,也就是说,当他们违反他们认可的规范时,会感受到内疚或羞耻的不愉快情绪,而在面对违背个人利益的诱惑时,当他们遵循规范时会感到满足。因此,规范可以帮助人们在协调博弈中找到均衡,即使这些博弈中的一些个体选择没有被其他人观察到。

当然,规范远非完全可靠的机制。每个真实的社会都有许多一些人不认同的规范,因此可能不内化,因此可能会在他们认为可以不被观察或者以不认为代价太高的惩罚作为回报的情况下违反规范。这为任何具有相当复杂程度的社会环境中的冲突提供了无尽的燃料。此外,如果规范不随着技术和其他情况的变化而演变,社会将发现自己被保守主义所困,从而导致日益低效。但随着时间的推移,规范的演变意味着在某个时间存在有关规范的分歧,除非每个人同时切换规范。但这本身将需要解决一个协调博弈,而通常缺乏元规范!正如库兰(1995)在实证审查和建模中所述,规范变化通常通过偏好伪装和发现的循环来实现。也就是说,越来越多的人可能私下里不喜欢某个规范,但仍然公开支持并遵守它,因为他们假设大多数其他人仍然支持它,并且遵守它,甚至帮助强制执行它,是他们的均衡策略。在某个时间点,大多数人可能都在这样行事,这阻止了任何人意识到没有规范的新均衡,或者有一个相反的规范是可用的。然而,这种隐藏的偏好往往会泄漏,迟早会有公开可见的信号表明对规范的广泛不满。这通常会产生这样的效果,即整个社会突然和戏剧性地改变了他们的看法,从而改变了均衡。例如,在北美的商业文化中,高管们在大约两年的时间里从偏爱欢乐的“酒后午餐”规范转变为严格执行禁止工作时间饮酒的规范,这发生在 20 世纪 80 年代中期。我们可以从中推断,许多高管在参与其中之前就认为酒后午餐是一件坏事,然后意识到这是大多数人的隐藏意见。(这种偏好伪装不应与“多元无知”的现象混淆。这些是许多人对某种行为模式的统计频率存在错误信念,并且受到这种错误信念所暗示的规范的影响的情况。多元无知往往只会缓慢逐渐地侵蚀,因为统计感知的错误被逐渐消除,而不显示由偏好伪装维持的均衡的剧烈不稳定性。偏好伪装是一个直接的战略现象,因此是博弈论者的一个话题。多元无知在某些情况下最多只有一个派生的博弈论元素。)

关于证据标准和科学合理性的惯例,这些是为 Lewis 的分析设定背景的科学哲学话题,可能具有帕累托可排名的特征。虽然在科学博弈中可能存在各种安排作为纽斯托姆·库恩的追随者们喜欢提醒我们的那样,但极不可能所有这些都位于单一的帕累托不变曲线上。这些主题在当代认识论、科学哲学和语言哲学中得到了充分的代表,都至少是对博弈论的隐含应用。(读者可以在诺齐克(1998)中找到广泛的应用示例和大量文献的参考。)

大多数人类进行的社会和政治协调博弈也具有这一特征。令我们所有人感到不幸的是,帕累托劣势纳什均衡所代表的低效率陷阱在其中极为普遍。有时,这种动态会导致最可怕的一种人类集体行为。哈丁对最近两起种族灭绝事件的分析依赖于这样一种观点:人们根据生物学上的肤浅特征将自己归入种族和族裔群体,这些特征在协调博弈中极为高效地作为焦点,从而在它们之间产生致命的囚徒困境。

根据哈丁的观点,南斯拉夫和卢旺达的灾难都不是最初就是囚徒困境。也就是说,在这两种情况下,大多数人开始时都没有把自己的独家族裔利益置于普遍的相互合作和个体以及多族裔协会之间的受监管竞争之上。然而,由自私政客刻意助长的协调逻辑动态地产生了囚徒困境。一些塞尔维亚人(胡图人)被鼓励将自己的个人利益视为通过认同塞尔维亚(胡图)群体利益而最好地实现。也就是说,他们发现他们的一些情况,比如那些涉及在各自的族裔社区内进行协调博弈的工作竞争的情况,具有协调博弈的形式。这激励越来越多的人向他们的族裔同胞施加压力,采取协调策略。最终,一旦足够多的塞尔维亚人(胡图人)将自身利益与群体利益联系起来,这种联系几乎成为普遍正确的,因为(1)每个塞尔维亚人(胡图人)的最重要目标是做大约每个其他塞尔维亚人(胡图人)会做的事情,(2)作为协调的最显著的塞尔维亚事情是排斥克罗地亚人(图西人)。也就是说,由于有了高效的焦点,选择了涉及这种排斥行为的策略。这种情况使得一个个体——即受到威胁的克罗地亚人(图西人)的自身利益通过坚定的克罗地亚人(图西人)群体认同的协调而得到最大化,这进一步增加了对塞尔维亚人(胡图人)的压力,以及其他情况。请注意,这种分析并不是要暗示塞尔维亚人或胡图人发动了事端;这个过程可能是(即使事实上并非如此)完全相互的。但结果令人震惊:随着他们为了自卫而团结起来,塞尔维亚人和克罗地亚人(胡图人和图西人)似乎越来越具有威胁性,直到双方都认为有必要在对手袭击之前先发制人。如果哈丁是正确的——这里的重点不是要声称他是正确的,而是要指出确定代理人实际上在玩什么游戏的世俗重要性——那么单单有一个外部强制执行者(北约?)的存在并不能改变游戏,与霍布斯分析相反,因为强制执行者无法威胁任何一方比对方所害怕的更糟糕的事情。需要的是重新评估利益的调整,这在南斯拉夫发生了(可以说)当克罗地亚军队开始决定性地取得胜利时,波斯尼亚塞族决定他们的自身/群体利益更好地由北约维和部队的到来来服务。卢旺达种族灭绝也以军事解决结束,这次是图西人的胜利。(但这成为了自 1945 年以来地球上最致命的国际战争的种子,即 1998 年至 2006 年的刚果战争)。

协调极化的动态经常被政治学家们援引,以解释国家内部不断升级的冲突。其基础不一定是种族。举个例子,过去三十年来,美国政党认同的极化现象被广泛观察到,通常使用博弈论逻辑沿着哈丁的思路进行建模。在美国这样的两党制体系中,如果一方支持者开始相信让他们的政党掌权比政党在特定问题上的政策更重要,因此开始表现出极端战略性和机会主义行为,这种行为会激励另一方支持者采取相同的态度。所涉及的信念因而是自我验证的,使得对于支持者的双方来说,最高利益在于自己派系的胜利成为事实。无情的零和竞争取决于党派隶属,早在 2009 年就已经观察到在美国导致美国人在地理和文化上分裂,并主要通过对彼此的象征和图标的对比来认识和定义自己的集团(Bishop 2009)。一旦人们将政治偏好纳入他们对自己身份的概念中,要向任何人提出有效的竞争性对抗激励就变得极其困难;正如 Ross(2005a)所讨论的,大多数人出于博弈论模型很好地解释的原因,将维护他们的社会身份排在了他们的有效偏好排序的顶部或附近:一个人的社会身份对他人来说显得不明确或不稳定,他将很难找到协调伙伴。组建团队来执行团体项目是基本的人类生存策略。因此,博弈论的视角帮助我们看到,作为物种的生态成功的根源也是我们倾向于形成相互敌对的种族或纯粹文化部落的根源,而这反过来又是大规模、普遍破坏性的人类冲突的最基本来源。

当然,并不是大多数重复博弈都会导致灾难。人类和其他动物之间友谊的生物学基础部分是重复博弈的逻辑功能。在未来博弈中合作所能获得的回报的重要性,使得那些期望在未来相互作用的人比诱惑在当前博弈中鼓励的更加不自私。这样的均衡通过学习变得更加稳定的事实,使得朋友具有了建立起来的投资的逻辑特征,大多数人都非常乐于感情化。此外,培养共同利益和情感提供了围绕其周围可以越来越便利地进行协调的焦点网络。协调反过来是合作和推动物质和文化创新的受控竞争的基础。

协调的一个关键子主题是团队内劳动的专业化。由于亚当·斯密首次对这一主题进行了广泛评论,他与严谨经济学的起源有关,劳动的专业化在世界各地与商业生产紧密相联。然而,自我们物种的曙光以来,这一点一直是人类生活的基本特征。古经济学家海姆·奥费克(2001)有力地论证说,我们直系智人祖先之所以能够控制火,是因为他们学会了在专业的维护者和另一方面的市场上进行劳动分工。烹饪大大提高了食物消耗的效率,并使原始人有时间从事其他事情,比如工具的制作和社会丰富化,这反过来又是人类大脑爆炸性增长的一个基本触发条件(Wrangham 2009),随后,正如普兰纳和斯特尔尼(2009)所论述的那样,也是语言出现的原因。因此,在奥费克的观点中,最狭义和字面上的劳动协调专业化是人类事业的基础;首批维护消防站服务并以此与顾客交换猎物和工具的人是最早的商业企业。也许旧石器时代的消防站操作员之间会为争夺顾客和争夺受到顶上岩石悬崖或洞穴天花板保护的地点而展开竞争;如果是这样,工业组织理论的逻辑,即博弈论接管的第一个经济学子领域,将适用于他们的策略化。

在劳动专业化的最简单模型中,不同的角色可以由偶然决定。如果我们两个人在做比萨,谁擦奶酪,谁切蘑菇可能取决于谁恰好站在哪个工具旁边。但这种情况并不典型。更常见的情况是,角色分配是由不同的能力决定的。如果我们两个人划船,一个是右撇子,另一个是左撇子,显然应该谁坐在哪一边。在这种情况下,不应该对谁做什么进行战略性讨价还价,因为由尽快到达目的地带来的好处是对称分享的。但这也是一种不典型的情况。更频繁地,一些角色的执行成本低于其他角色,或者吸引了更大的预期回报。每个组建摇滚乐队的人都知道,相比鼓手或低音吉他手,更多的名声和额外福利往往流向主吉他手。摇滚乐诞生几十年后,成功乐队中鲜有女性主吉他手,随之而来的是女性音乐家和粉丝对“吉他英雄”常见舞台姿态中的自负男性姿态的评论。像 Sleater-Kinney 和 Breeders 这样的乐队一直以来都在抵制这种文化模式。这个例子引起了劳动专业化一个更普遍和深刻重要的方面的注意,博弈论为此提供了关键的启示。

正如上文所讨论的,劳动的专业化是人类物种进化和生态优势崛起的基础。在每一个自然形成的人类群体中观察到的分配不同角色的最普遍和最重要的基础是性别。最初形成这一基础的原因几乎可以肯定是在不同任务的相对表现优势上存在一些不对称,就像划船者的情况一样。捕猎大型动物更适合肌肉更发达的人进行。此外,捕猎需要灵活性和常常需要保持安静,因此最好不要在照顾婴儿的同时进行。因此,在狩猎采集者社区中,包括现存的社区,存在一种非常普遍但并非普遍的专业化模式,即男性负责狩猎,而女性负责采集和执行一些可以在家中进行并与照顾儿童相结合的任务,比如缝补和食物加工。这样做的后果在政治上是深远的。猎人成为武器的专家。武器的专家往往会行使不成比例的权力,尤其是在人类生态历史的后期,他们所属的社区定期与其他群体发生暴力冲突。人们早就知道,男性在政治和社会上的主导地位,这是人类历史和文化中占主导地位的模式,其根源在于古老的生产角色分工。

在现代社会中,狩猎是边缘活动,最有权势的人不是那些最擅长投掷矛的人。在大多数文化传承中,长期以来一直如此,因此文化进化有足够的空间来消除传统的权力失衡。乍一看,这使得性别不平等的顽固存在令人困惑。这经常引发人们对可能存在的男性天生更有效率,或者至少更无情的执行者和总统的推测。或者有时会有人提出,权力不对称的最终根源是家庭内的暴力威胁的不对称。(这当然是真实的,也是许多家庭伙伴关系中男性暴政的真正基础。但问题在于它是否足以解释普遍的模式。)博弈论学者 Cailin O’Connor(2019)最近的研究工作表明了一个更深层次、更有力的解释。这更具科学力量,部分原因在于它比前面提到的那些简化的故事更贴近一系列证据,同时也因为它解释了这一普遍现象的更多具体副作用。特别是,它解释了文化学习的性别特征的稳定,这些特征有助于人们表明他们意识到并接受与其生物性别相关联的角色。当然,由于这种文化规范可以被策略性地操纵,它也允许一些人表明他们拒绝这些角色,并与其他寻求改革的女性、男性或非二元人士协调这种拒绝,以达到改革后的平衡状态。

O'Connor 的博弈论分析分为两个部分。首先,她使用进化博弈论(见下文第 7 节)来展示在角色效能的相对微小不对称性下,如何培养了对差异标记的极其稳健的使用,从而巩固了不平等的结果。在没有相关信号的情况下,选择角色专业化的均衡是逻辑上困难的,正如我们在本节前面所看到的。一个社会往往会抓住任何经常可靠的信号,并根据这些信号制定均衡策略,即使在囚徒困境中,即使整个代理人集合可以转向另一种均衡,许多人甚至所有人都可能过得更好。然后,正如我们之前讨论过的,所讨论的信号往往会在文化上演化成为规范的基础,因此,像在讨论中一样,那些“像男人一样走路”、“像男人一样说话”或者对“男性”活动或性伴侣表现出兴趣的女性会受到制裁,包括其他许多女性的制裁。因此,性别由此产生。 (请注意,如果女性真的比男性更不称职,那么鉴于领导地位通常是通过在功能环境中的竞争而获得的,不清楚为什么性别差异化的角色首先需要通过规范性的性别来维持。)实际上,O'Connor 对博弈论的第一个应用表明,女性被赋予与男性不同的社会角色,这导致了不平等,仅仅因为“性别”是我们通常(并非完全总是)在一个人出生之前就可以确定的一个群体分配。 (读者将注意到,基于相关均衡的类似逻辑也适用于种族的规范构建,其根本没有基于预期功能能力的基础。这在一定程度上解释了为什么对那些可以一眼看出其“种族”的人进行歧视,例如美国的黑人,比之前对该国爱尔兰人的种族歧视要难以克服得多。)

作为均衡选择效应而产生的性别不平等可能(也应该)受到道德上的批评,但至少我们可以认识到它是由(部分)补偿效率所引起的。根据这个标准,O'Connor 分析的第二部分并没有提出这样的权衡。

在博弈论发展的黎明时期,Nash (1950b) 模拟了两个代理商就他们共同获得的剩余价值进行讨价还价的一般情况。显然,对经济学家来说,这与他们所思考的任何其他事情一样重要,无论是在简单的以物易物的社会还是在资本主义社会中都是如此。所谓的“纳什讨价还价解” 的核心是,这样的谈判均衡取决于双方在未能达成协议时的替代选择的相对价值。如果你知道,如果我们达不成协议,我将无处安放我的家具,当我的船到达港口时,你就可以让我为你的房子支付更多。正如 Ken Binmore (1994, 1998, 2005a)深入讨论的那样,在谈判背景下的优越替代选择是社会中权力差异的基本来源。此外,正如 Binmore 所主张的,一个社会的特定规范往往会适应这些不对称,因为在谈判中对“公平”的期望的不一致是每个社区最常见的冲突和投资失败的原因。O’Connor 将博弈论的这一要素应用于性别不平等问题。

她从她分析的第一部分结束的地方开始:从规范上根深蒂固的性别角色开始,这些角色作为均衡选择装置而产生不平等。请注意,这是社会宏观结构的特征,也是进化博弈论的应用领域。然后,她从纳什讨价还价理论的角度(并且还使用战略网络理论的工具,如第 5 节所提到的)审视了一个在统计上典型的家庭的微观动态。来自富裕国家的证据显示,在男性和女性的教育水平和收入已经趋于一致的家庭子集中,女性平均继续承担不成比例的家务工作,并且她们的休闲时间减少了。纳什讨价还价理论可以解释这一现象。假设我们将婚姻中一般的谈判破裂解释为离婚。如果男性在家外花费的时间和精力比女性多,他们因此建立了更大的社交网络资产的流动和存量,这使得单身生活的低效成本更低,并且更有可能提高他们的收入。因此,在家庭责任分工的谈判中,他们享有更强大的替代选择位置。这种不平等的均衡随着时间的推移而自我放大,因为男性的社交网络逐渐加深,并且在两位伴侣的职业生涯中变得更加有价值。为了接受这一模型的相关性,我们不需要想象丈夫和妻子们真的就时间的明确分配进行讨价还价,并且以预期的边际对家庭收入的贡献作为论据。我们只需要想象女性反复提早离开办公室接孩子或接受家政服务电话,因为她们的丈夫不断地忙于会议或商务旅行,而这些事情对他们的利益更为重要。与 O’Connor 分析的第一部分中的游戏不同,这种动态的不公平并没有实现社会效率,因为没有理由认为女性在经济上的职业生涯会比受过同等教育的男性更不具生产力。随着女性教育水平的提高,女性的休闲时间减少的模式可能会增加,因为更多要求高的专业活动被堆积在不变的家庭责任水平之上。(在家庭财富的一定水平之后,我们可能期望这种影响会逆转,因为女性可以雇佣家庭服务。但这仅适用于收入分配的一小部分上层。)O’Connor 模型的这一部分具有直接的政策含义。努力改善女性获得有价值的资格证书的机会,并鼓励公司增加女性在高管层的代表,可能对性别之间的福利平等产生微弱甚至负面的影响。社会可能还需要投入更多的资源来补贴家外托儿服务和为年迈的父母提供生活援助,作为增加女性家庭内谈判权力的措施。

O’Connor 的分析的第一部分对政策也有重要的启示。正如她强调的那样,如果不同可区分群体之间的不平等是通过协调博弈中的均衡动态自然产生的,那么我们就不应该指望能够找到能够彻底消除这些不平等的政策。O’Connor 得出结论,控制不平等需要平等主义者持续和反复进行的政治努力。

一般来说,协调动态构成了大多数人类社会模式的分析核心。在此考虑的例子仅仅是这类现象无限数组的说明,这些现象如果没有经验指导的博弈论模型的构建和应用,就无法得到充分的理解。

5. Team Reasoning and Conditional Games

根据 刘易斯(1969) 在哲学文献中引入协调博弈之后,哲学家玛格丽特 吉尔伯特(1989) 针对刘易斯提出了反对意见,认为博弈论是一种错误的分析技术,用于思考人类惯例,因为,除了其他问题外,它太“个人主义”,而惯例本质上是社会现象。更直接地,她的观点是,惯例不仅仅是许多个人决策的产物,这可能会被一个将惯例建模为 n 人博弈的均衡的理论家所建议,在这个博弈中,每个玩家都是一个单独的人。关于博弈论被指称为个人主义基础的类似担忧还得到了另一位哲学家马丁 霍利斯(1998) 以及经济学家罗伯特·萨格登(199320002003)和迈克尔 巴哈拉赫(2006) 的回应。特别是,这促使巴哈拉赫提出了_团队推理_理论,由萨格登和纳塔莉·戈尔德在巴哈拉赫去世后完成。在本节中,我们将回顾团队推理的概念,以及将博弈论应用于社会学话题的另一种方法,即_条件博弈_理论(斯特林(2012)罗斯和斯特林 2021)。

再次考虑在 第 2.4 节 中讨论的一次性囚徒困境,为了便于后续讨论,给出一个倒置矩阵,如下所示:

(C denotes the strategy of cooperating with one’s opponent (i.e., refusing to confess) and D denotes the strategy of defecting on a deal with one’s opponent (i.e., confessing).) Many people find it incredible when a game theorist tells them that players designated with the honorific ‘rational’ must choose in this game in such a way as to produce the outcome (D,D). The explanation seems to require appeal to very strong forms of both descriptive and normative individualism. After all, if the players attached higher value to the social good (for their 2-person society of thieves) than to their individual welfare, they could then do better individually too; obstinate individualism, it is objected, yields behavior that is perverse from the individually optimizing point of view, and so seems incoherent. The players undermine their own welfare, one might argue, because they obstinately refuse to pay any attention to the social context of their choices. Sugden (1993) seems to have been the first to suggest that even non-altruistic players in the one-shot PD might jointly see that they could reason as a team, that is, arrive at their choices of strategies by asking ‘What is best for us?’ instead of ’What is best for me?’.

Binmore (1994) 强烈主张,这一批评观点混淆了将博弈论作为数学与关于哪种博弈论模型最常适用于人们所处情境的问题。如果玩家们重视他们所属团队的效用,超过了更狭隘的个人利益,那么这应该在与他们选择相关的博弈论模型的回报中得到体现。在上文中被建模为 PD 的情境中,如果两名玩家对“团队”的关注足够强烈,以至于导致从 D 到 C 策略的转变,那么(在基数解释下)左上角的回报至少必须提高到 3。(在 3 的情况下,玩家在合作和背叛之间会感到漠不关心。)然后我们得到了如下对游戏的转换:

This is no longer a PD; it is an Assurance game, which has two NE at (C,C) and (D,D), with the former being Pareto superior to the latter. Thus if the players find this equilibrium, we should not say that they have played non-NE strategies in a PD. Rather, we should say that the PD was the wrong model of their situation.

批评个人主义者可以承认宾莫尔的逻辑观点,但可以通过主张改变博弈来加以解释,如果他们发现自己处于这样的情况中,当经济代理的相关解释是个人主义时,这些情况具有 PDs 的结构。这正是巴哈拉赫的理论提议。他的科学执行者苏格登和戈尔德在巴哈拉赫(2006)第 171-173 页中,与 Hollis 和 Sugden(1993)不同,使用了收益解释的标准约定,根据这一约定,只有在至少有一名玩家出错时,玩家才能被建模为在一次性 PD 中合作。在这种假设下,巴哈拉赫、苏格登和戈尔德认为,人类游戏玩家通常或经常会避免以一次性 PD 是他们情况的正确模型的方式构建情况。个人主义代理会将作为 PD 的情况构建为上述保证博弈。请注意,团队的福祉可能会对(基数)收益产生影响,但不足以抵消单方面背叛的诱惑。假设它使他们每个玩家的收益提高到 2.5;那么游戏仍然是 PD。这一点很重要,因为在实验中,受试者玩一系列一次性 PD(而不是重复的 PD,因为实验中的对手在每一轮都会改变)时,大多数受试者开始合作,但随着实验的进行,他们学会了背叛。根据巴哈拉赫对这一现象的解释,这些受试者最初将游戏构建为团队推理者。然而,少数受试者将其构建为个人主义推理者并进行背叛,获取搭便车者的利润。然后团队推理者重新构建情况以自卫。这引入了巴哈拉赫解释的一个关键方面。个人主义推理者和团队推理者并不被认为是不同类型的人。巴哈拉赫认为,人们倾向于在个人主义代理和参与团队代理之间来回切换。

现在考虑以下的纯协调博弈:

我们可以将这解释为代表着一种情况,其中玩家们狭隘地表现为个人主义者,因此对于(U,L)和(D,R)这两个纳什均衡都感到漠不关心,或者是团队推理者,但尚未意识到如果他们团队围绕一个纳什均衡而不是另一个纳什均衡稳定下来,他们的团队会更好。如果他们确实意识到了这一点,也许是通过找到一个焦点,那么纯协调博弈就会转变成以下被称为 Hi-Lo 的博弈:

至关重要的是,这里的转变需要不仅仅是_简单的_团队推理。玩家还需要焦点来确定两个纯协调均衡中哪一个提供了较低风险的社会稳定前景(Binmore 2008)。事实上,巴哈拉赫及其执行者对纯协调游戏和 Hi-Lo 游戏之间的关系感兴趣是出于一个特殊的原因。NE 作为解决方案概念不偏向于在纯协调游戏中选择一种策略向量,似乎并没有暗示对 NE 的批评。然而,NE 在所描述的 Hi-Lo 游戏中也不偏向于选择(U, L)而不是(D, R),因为(D, R)也是 NE。在这一点上,巴哈拉赫及其朋友采取了精炼方案的哲学推理。他们不满地说,“理性”推荐(U, L)。因此,他们得出结论,团队推理的公理应该被建立到博弈论的精炼基础之中。

我们无需赞同博弈论解决概念应该被细化以适应理性的直观概念来激发对巴哈拉赫贡献的兴趣的想法。非心理学的博弈论学家可以提出一个微妙的重点转移:与其担心我们的模型是否应该尊重理性的团队中心规范,我们可能只是指出经验证据表明,人们,也许还有其他代理人,似乎经常做出显示出对与他们有关联的团体福祉有条件偏好的选择。在这种程度上,他们的代理性部分或完全——也许是随机地——与这些团体认同,当我们使用效用函数对他们的代理性建模时,这一点需要得到体现。然后,我们可以更好地描述我们想要的理论,作为一种团队中心选择的理论,而不是作为一种团队推理的理论。请注意,这种哲学解释与一些我们的证据,也许甚至是我们最好的证据,支持团队中心选择的存在是心理学的想法是一致的。这也与这样一个建议一致,即将人们在个性化和团队中心代理之间转换的过程通常不是经过深思熟虑或有意识地表现出来。关键是我们无需跟随巴哈拉赫的想法,认为博弈论是一种推理或理性的模型,才会相信他已经确定了我们希望有正式资源来填补的空白。

那么,人们的选择似乎显示出团队中心的偏好吗?标准的例子,包括巴哈拉赫自己的例子,都来自团队运动。这些团队的成员在很大程度上受到社会压力,要选择最大化胜利前景的行动,而不是增加他们个人统计数据的行动。这些例子的问题在于,它们嵌入了与估计效用函数相关的难以识别的问题;一个狭义自私的球员,如果想要受到球迷的欢迎,可能会表现得与一个团队中心的球员一样。战斗条件下的士兵提供了更有说服力的例子。尽管试图说服士兵为了国家利益而牺牲生命通常是无效的,大多数士兵可以被诱使在捍卫他们的伙伴时承担非凡的风险,或者当敌人直接威胁到他们的家乡和家人时。我们很容易想到其他类型的团队,大多数人可以合理地认同其中的一些或大部分时间:项目组、小公司、政治选区委员会、当地工会、宗族和家庭。强烈的个人主义社会理论试图将这些团队构建为个人之间的博弈中的均衡状态,但是博弈论(或者说,主流经济理论)中没有内置这种观点(参见 Guala(2016)对选项的批判性评论)。相反,我们可以假设团队经常是由复杂相互关联的心理和制度过程外生地被焊接在一起。这促使博弈论学家构想一个数学使命,这个使命不在于对团队推理进行建模,而在于对存在团队动态的情况下进行选择的建模。

Stirling (2012) 为了在特定的应用环境中形式化这种条件交互,提出了一个具有分布式控制架构的人工智能系统。这些系统通过将问题的各个方面分配给专门的子系统来实现处理效率。除非子系统操作其自己的效用函数,否则所谓的效率是无法实现的;否则,该系统实际上就只是一个调用子程序的标准计算机,其执行控制成为瓶颈。但是,如果子系统是独立的经济代理,那么整个系统的一致性问题就会出现不一致的风险。也就是说,它可能会表现得像一个典型的民主政治社区,追求矛盾的政策或陷入僵局和瘫痪。这样一个系统的工程师将在她的设计规范中包括避免这些问题。设计是否有可能在子代理之间实现真正的分布式控制的优势,同时又保证整个系统层面的一致性?这是斯特林致力于解决的问题。如果我们将斯特林的挑战框架化为以下形式,即我们希望子代理相互交互——即在个体之间玩游戏——然后只允许解决方案是团队推理的产品,那么这个问题就与巴哈拉赫的概念相似。

斯特林的两项基本创新之一是让玩家将他们的选择取决于彼此的行动配置,而不是结果。这样做的动机是,虽然子代理是作为个体进行选择的,但他们同时无法知道在团队层面上将给结果分配的效用是什么。(如果他们知道,我们会再次假设问题变得有趣的因素,并且子代理将只是子程序。)在这里,斯特林考虑了人类社会心理学的一个类比,当我们将应用环境从人工智能设计转移到社会科学时,这将成为一个概念创新的萌芽。

斯特林的类比人类现象的观点是,人们经常遇到与他人互动的情境,其中他们的偏好事先并未完全形成。心理学家在“偏好构建”(Lichtenstein and Slovic 2006)的标签下研究这一点,反映了人们通过互动来形成他们的偏好的直觉。斯特林提供了一个简单(可以说过于简单)的例子,取自 Keeney and Raiffa(1976),其中一位农民在购买土地时,只有在了解并在某种程度上考虑了妻子的偏好之后,才对不同的气候条件形成明确的偏好。这个小小的思想实验是合理的,但不是理想的例证,因为它很容易与我们可能对婚姻理想中代理权融合的模糊概念混淆,重要的是要区分团队中偏好条件化的动态与个体代理权的简单崩溃。因此,让我们构建一个更好的例子,取自 Hofmeyr and Ross(2019)。想象一下,一位公司董事长向她风险规避的董事会咨询他们是否应该进行一次危险的敌意收购。比较她可能采用的两种程序:在过程(i)中,她在会议前一周向每位董事会成员发送一封关于这个想法的个人电子邮件;在过程(ii)中,她在会议上集体向他们提出这个想法。大多数人会同意,这两个过程可能产生不同的结果,其中一个主要原因是,在过程(i)中,但不在过程(ii)中,一些成员可能会巩固个人观点,如果他们在第一次听到提议的同时得知彼此在公开场合挑战董事长的意愿,他们就没有时间安定下来。在想象的两个过程中,在投票时,有一组个人偏好需要通过投票进行汇总。但更有可能的是,第二个过程生成的一些偏好是有条件的。正如斯特林所定义的,有条件的偏好是受(特定)他人的(行动)偏好信息影响的偏好(行动)。

斯特林理论中形式化的第二个概念是一致性。这指的是一组偏好(包括一组有条件的偏好)在实现它们的均衡时会产生多大程度的争议或不和。团队的成员或领导者并不总是想通过将所有内部游戏设计为保证或 Hi-lo 来最大程度地增加一致性(尽管他们总是希望消除 PDs)。例如,一位经理可能希望在公司的利润中心之间鼓励一定程度的竞争,同时希望成本中心完全认同整个团队。

斯特林正式定义了三种有序效用函数的表示定理:条件效用、一致效用和条件一致效用。这些可以被递归应用,即对个体、团队和团队的团队。然后,正式发展的核心是将个体的条件一致偏好聚合起来,建立团队选择模型,这些模型不是外生地强加给团队成员的,而是从他们的几种偏好中得出的。在当前情境中陈述斯特林的聚合程序时,改变他的术语是有用的,因此我们可以转述他而不是直接引用。这是因为斯特林提到“群体”而不是“团队”。斯特林在 CGT 方面的最初工作完全独立于巴查拉克的工作,因此没有在团队推理的背景下配置(或者我们可以重新解释为以团队为中心的选择)。但是巴查拉克的想法提供了一个自然的框架,用来构建斯特林的技术成就,作为对社会科学中博弈论适用性的丰富。然后我们可以转述他对聚合的五个约束如下:

(1) Conditioning: A team member’s preference ordering may be influenced by the preferences of other team members, i.e. may be conditional. (Influence may be set to zero, in which case the conditional preference ordering collapses to the categorical preference ordering to standard RPT.)

(2) Endogeny: A concordant ordering for a team must be determined by the social interactions of its sub-teams. (This condition ensures that team preferences are not simply imposed on individual preferences.)

(3) Acyclicity: Social influence relations are not reciprocal. (This will likely look at first glance to be a strange restriction: surely most social influence relationships, among people at any rate, are reciprocal. But, as noted earlier, we need to keep conditional preference distinct from agent fusion, and this condition helps to do that. More importantly, as a matter of mathematics it allows teams to be represented in directed graphs. The condition is not as restrictive, where modeling flexibility is concerned, as one might at first think, for two reasons. First, it only bars us from representing an agent j influenced by another agent i from directly influencing i. We are free to represent j as influencing k who in turn influences i.) Second, and more importantly, in light of the exchangeability constraint below, aggregation is insensitive to the ordering of pairs of players between whom there is a social influence relationship.)

(4) 交换性:一致的偏好排序在与条件偏好相关的信息等价的表征转换下保持不变。

(5) 单调性:如果一个子团队更喜欢选择方案 A 而不是 B,并且所有其他子团队对 A 和 B 都持中立态度,那么团队不会更喜欢 B 而不是 A。

在这些限制条件下,Stirling 证明了一个聚合定理,该定理遵循了 Abbas(2003,其他互联网资源)所发展的关于根据新信息更新效用的一般结果。每个个体团队成员通过聚合条件一致的偏好来计算团队偏好。然后分析师应用边际化。设 Xn 为一个团队。令 Xm={Xj1,…,Xjm}和 X={Xi1,…,Xik}为 Xn 的不相交子团队。然后,对于子团队{Xm,Xk},通过对 Ak 求和得到 Xm 相对于 Xk 的边际一致效用,得到

Uxm(αm)=∑αkUxmxk(αm,αk)

and the marginal utility of the individual team member Xi is given by

Uxm(αm)=∑∼aiUxn(a1,…,an)

符号 ∑∼ai 表示对除 ai 之外的所有参数进行求和(Stirling(2012),第 62 页)。该操作产生了个体 i 事后的非条件偏好,即在考虑其条件一致偏好和其所依赖的信息(即团队的条件一致偏好)的情况下进行更新。一旦计算出了所有代理人的事后偏好,就可以通过标准分析来解决他们所涉及的结果博弈。

斯特林的构建,正如他所说,是标准效用理论的一个真正泛化,使得非条件(“范畴”)效用成为一个特例。它为团队效用的形式化提供了基础,可以与以下任一进行比较:个体或子团队的预条件范畴效用;个体或子团队的条件效用;或者个体或子团队的条件一致效用。一旦在团队选择问题中边缘化了每个个体的偏好,就可以提出 NE、SPE 或 QRE 分析作为对问题的解决方案,前提是对社会影响有充分的信息。不完全信息的情况可以使用 Bayes-Nash 或顺序均衡来解决。

如果读者在追踪上述技术构建的整体要点方面感到困难,我们可以用更高层次的术语总结条件博弈论(CGT)的成就如下。CGT 通过应用概率论的形式语法(通过边际化的运算)到博弈论,并构建图论表示来模拟影响流的传播。当社会影响通过群体传播,玩家根据其他玩家的偏好调节他们的偏好时,可能会出现群体偏好。群体偏好并不直接构成行动的基础,而是包含了一个社会模型,其中包括了代理人之间的关系和相互依赖。CGT 向我们展示了如何为一个群体推导出一个协调排序,该排序结合了其成员的条件和分类偏好,就像在概率论中,事件的联合概率是由条件概率和边际概率决定的方式一样。因此,正如概率语法的传统应用是一种表达认知者关于信念的认识不确定性的手段一样,将这种语法扩展到博弈论使我们能够表示代理人关于偏好的实际不确定性。

这一对 CGT 的最初解释的关键成就在于代表了一致性考虑对均衡确定的影响。这个社会模型可以用来生成对群体偏好的操作性定义,并定义真正协调的选择。并不假设群体一定会优化他们的偏好,或者个体代理人总是协调他们的选择。关键在于我们可以正式地表示在游戏中代理人可以做到实际人们似乎经常做的事情的条件,即根据其他人的偏好以及促进群体稳定性和效率的因素调整和确定他们的个人偏好。团队代理因此被纳入博弈论,而不是作为一个外生的心理构造留给分析人员在构建社会嵌入代理的博弈论模型之前必须事先调查的。

由于 CGT 分析中的代理根据行动而不是结果来确定其偏好,因此无法用广义形式来表示条件博弈。(广义形式模型必须从分配给终端节点的效用指数推导出所有非终端节点的效用指数,即结果。)因此,博弈论者应该将团队效用构想为来自于一个预先过程,这个概念在博弈学习文献中被广泛使用,如 3.1 节所讨论的那样。在该文献中,预先过程用于生成常见观察信号,这些信号是在“真实”博弈中识别相关均衡的基础。这提出了一个有趣的可能性:我们是否能够用 CGT 来达到同样的目的呢?

有一个哲学原因可能会促使我们这样做。在博弈学习的标准模型中,玩家自然地被解释为从观察行动中推断他人的私人偏好和信念。这与这一观念直观地一致,这一观念在认知科学中非常流行,即人类之所以能够在复杂协调方面取得特殊成就(与其他动物相比),部分原因是因为我们有能力“阅读”彼此的心智(Nichols and Stich 2003)。然而,最近,这一假设受到了来自两个密切相关方向的强烈批评。

首先,它融入了一个极具争议的观念,即信念和偏好是‘内在’(大脑?)状态,可以从内部了解,但只能从外部推断。认知科学家越来越倾向于这种观点,这一观点最初由丹尼特(1987 年)详细发展,后来由克拉克(1997 年)、赫托(2008 年)等人进一步扩展,认为信念和偏好是人们根据其环境和历史条件而进行的社会建构解释,儿童被教导自动应用这些解释,首先是对他人,然后是对自己(麦吉尔,2001 年,2002 年)。博弈论推理解释了为什么这种建构是人类之间的普遍实践:这是实际目的的协调的基本基础,实际目的并不是人们具体的想法,而是他们可以相互招募的项目(罗斯,2005a)。其次,扎维兹基(2013)有力地论证了心理阅读理论所预设的快速推论类型在计算上是不可行的,除非是在非常熟悉彼此的人之间,或者在受到严格限制的制度规则内进行互动,比如参与团队运动或在已建立的市场中交易(因此,团队推理最为可信的环境)。那么人们是如何协调的,至少在很多时候是如此顺畅的呢?这个看似棘手的问题一旦我们接受了前一段的观点,即人们根本不需要推断‘隐藏’的信念和偏好,因为首先根本就没有这样的东西,这个问题就迎刃而解。相反,他们通过持续的微观协商即时共同构建信念和偏好。一个典型案例是两个人在拥挤的人行道上避免碰撞。我不需要试图推断你打算往哪边转,而与此同时你也试图推断我打算的意图;相反,我们交换快速信号,使我们能够共同制定互补计划。(在某些文化中,我们可能会受到规范约定的帮助,比如如果一个人是男性,另一个是女性,那么男性应该朝着街道的方向走。这种规范,在适用的情况下,可能具有性别歧视的起源,但在认识到有些约定是有用的,并且这个约定在适用的情况下可以基于快速的一瞥的基础上使用时,可能不会被放弃。可以想象性别流动的人将其扩展为由他们穿着的方式引导,也许还会有一些微笑和笑声来表达更丰富的共识信号。)扎维兹基将这类过程称为心智塑造,并表明它们是大多数日常协调成功的基础。心理阅读,如果可能的话,是依赖于心智塑造的。

显然,心智塑造具有战略维度,正如事实所揭示的那样,它经常涉及微观权力维度——如果你面临的是老板或警察,你可能会向后退而不是向一侧。因此,博弈论应该适用于它。但是,鉴于标准博弈论的应用要求预先指定效用,这就存在问题。读者应立即看出,CGT 似乎是为这一挑战量身定制的。

斯特林(2012)中提出的 CGT 需要一些修改,以用作塑造心智的博弈论模型。在斯特林最初为人工智能设想的控制环境中,控制是分层的,因此对偏好的影响可以从一个起点通过网络流向终止值。然而,心智塑造过程通常是多向的。因此,罗斯和斯特林(2021)提出了所谓的“马尔可夫链建模”的应用,利用了 CGT 与贝叶斯网络理论之间的数学同构,以纳入没有固定方向的影响流。由于这放宽了 AI 工程师可能希望保持固定的属性,所提出的实际上是一个新理论。因此,罗斯和斯特林将其称为“CGT 2.0”。其首次应用是分析实验游戏,以识别实验室受试者使用的规范,并估计规范对受试者行为的影响,详见 Ross, Stirling, and Tummolini(2023)。

与 CGT 1.0 不同,CGT 2.0 最好不被概念化为形式化团队效用的方式。它的适用范围更广泛。实际上,它是任何促进玩家在信息不完整情况下识别效用函数的预先游戏的一般模型。因此,正如罗斯和斯特林(2023)所示,它可用于识别相关均衡(见第 3.1 节)。事实上,它产生了更强的结果。“哈尔萨尼信条”是从哈尔萨尼(1977)那里得到的理念,即贝叶斯玩家对主观概率分配的任何差异应该仅仅源自不同的信息。这仅取决于行动的观察,而不取决于结果的观察。由于 CGT 对行动进行条件设定,代表 CGT 预先游戏结果的转换矩阵也识别了构成“真实”游戏的共享信号的共同先验。因此,就 CGT 2.0 成功地模拟心智塑造而言,我们可以说心智塑造假设激发了对哈尔萨尼信条至少在某些行为游戏中的实证相关性的信心。这给予了扎维兹基的观点以形式化表达,即心智塑造可以在战略环境中强力支持协调。最后,相关均衡在实证目的上的一个限制是,它依赖于这样一个假设,即所有玩家符合,并且知道所有玩家都符合预期效用理论的公理。奥曼(1987)指出,如果代理人对信念采用主观概率加权,这一假设就会崩溃。但这实际上是人类实验室受试者的行为方式(Harrison and Ross(2016))。CGT 2.0 允许通过预先游戏来消除这一限制。它将 Quiggin(1982)和 Prelec(1998)发展的主观概率加权理论纳入其对效用的一般模型。因此,这些信念在代表许可应用哈尔萨尼信条到“真实”游戏的转换矩阵中得到了体现。因此,相关均衡的推导可以进行,就好像玩家是预期效用最大化者一样。

6. 承诺

在某些游戏中,玩家可以通过采取一种行动来改善自己的结果,这种行动使得玩家无法采取在相应的同步移动游戏中将是她最佳行动的行动。这些行动被称为承诺,它们可以作为对外部强制执行的替代,在否则会在帕累托低效均衡上解决的游戏中发挥作用。

考虑以下假设性例子(这不是一种 PD)。假设你拥有一块毗邻我的土地,我想购买它以扩大我的地块。不幸的是,你不愿以我愿意支付的价格出售。如果我们同时行动——你报一个售价,我独立地告诉我的代理商一个要价——就不会有交易。因此,我可能会试图通过采取一个开局着手来改变你的激励,我宣布我将在你旁边的土地上建造一个臭气熏天的污水处理厂,除非你卖掉,从而诱使你降低价格。我现在把这变成了一个顺序行动的博弈。然而,到目前为止,这一举动并没有改变任何事情。如果你拒绝在面对我的威胁时出售,那么对我来说,执行这一威胁就不符合我的利益,因为伤害你也会伤害我自己。由于你知道这一点,你应该忽略我的威胁。我的威胁是不可信的,是廉价的言论。

然而,我可以通过承诺使我的威胁变得可信。例如,我可以与一些农民签订合同,承诺向他们提供来自我的工厂的处理过的污水(肥料),但在合同中包括一个逃脱条款,只有在我能够将我的地块面积加倍并将其用于其他用途时,我才能免除我的义务。现在我的威胁是可信的:如果你不卖,我就承诺建造污水处理厂。由于你知道这一点,你现在有动机卖掉你的土地以避免它的毁灭。

这种情况揭示了非参数和参数最大化逻辑之间的许多基本差异之一。在参数情况下,一个代理人永远不会因为拥有更多选择而变得更糟。(即使一个新选项比她最初的选项更糟糕,她可以忽略它。)但是,在非参数情况下,如果选项受到明显限制,一个代理人的策略可能会对另一个代理人有利。当然,科尔特斯烧掉他的船只(见第 1 节)就是这种情况的一个例子,这个例子使得通常的隐喻变得字面意义上的。

另一个例子将说明这一点,以及原则在不同类型的博弈中的适用性。在这里,我们将构建一个虚构的情境,它不是囚徒困境(PD),因为只有一个玩家有动机背叛,但是在没有承诺的情况下,它是一个社会困境,因为其纳什均衡对于帕累托来说是次优的,而通过承诺设备可以实现更好的结果。假设我们中的两个人希望从国家公园偷猎一只稀有羚羊以便出售狩猎纪念品。我们中的一人必须将动物赶到第二个人那里,后者在一个盲点等待着射击并将其装上卡车。你当然答应与我分享收益。然而,你的承诺是不可信的。一旦你得到了雄鹿,你没有理由不把它开走并将其全部价值装入口袋。毕竟,如果我向警察投诉,我自己也会被逮捕。但是现在假设我在游戏开始前加入以下开局动作。在我们的狩猎之前,我给卡车安装了一个只能通过输入代码关闭的警报器。只有我知道这个代码。如果你试图在没有我的情况下开车离开,警报器会响起,我们都会被抓住。你知道这一点,现在你有动机等待我。在这里需要注意的关键是,你希望我安装警报器,因为这使得你给我我的份额的承诺可信。如果我不这样做,使你的承诺不可信,我们将无法同意首先尝试犯罪,而且我们两个都将失去从出售狩猎纪念品中获利的机会。因此,在一个子博弈中,你从我阻止你做对你来说最优的事情中获益。

现在我们可以结合我们对 PDs 和承诺设备的分析,讨论首次使博弈论在学术界之外出名的应用。在冷战期间超级大国之间的核对峙曾受到第一代博弈论学者的密切关注,其中许多人直接或间接获得了美国军方的资助。Poundstone 1992 年提供了相对“经过消毒”的历史,长期以来一直可供依赖于二手资料和理论家公开回忆的普通历史学家。最近,Amadae (2016)进行了更加怀疑和专业的历史研究,为应用博弈论的先驱、冷战核战略发展的参与者以及五角大楼秘密泄露越战档案的著名人物 Daniel Ellsberg (Ellsberg 2017)的回忆录提供了学术背景。与这些描述一致但引起读者兴奋较少的历史是 Erickson (2015)。

在传统的叙述中,美国和苏联之间的核对峙将以下政策归因于双方。每一方都威胁要对对方的首次打击做出毁灭性的反击。这一对互惠策略,到了 20 世纪 60 年代末实际上意味着毁灭世界,被称为“相互保证毁灭”,或者“MAD”。当时的博弈论学者反对 MAD 是疯狂的,因为它导致了 PD 的产生,原因是相互威胁是不可信的。这一诊断背后的推理如下。假设苏联对美国发动了第一次打击。此时,美国总统发现自己的国家已经被摧毁。他不会通过毁灭世界来挽回国家的生机,因此他没有动力执行他最初的报复威胁,这显然未能达到其目的。由于俄罗斯人可以预料到这一点,他们应该忽略报复威胁并首先发动攻击。当然,美国人处于完全对称的位置,因此他们也应该首先发动攻击。每个大国都意识到对方的这种激励,因此如果他们不迅速预防,就会预料到一次攻击。因此,我们应该预期的是,因为这是游戏的唯一 NE,两个大国之间会展开一场先发制人的竞赛。明显的暗示是世界的毁灭。

这种博弈论分析在冷战期间引起了双方的真正恐慌和恐惧,据说曾经产生了一些引人注目的设立战略承诺机制的尝试。例如,有人传闻尼克松总统曾让中央情报局试图说服俄罗斯人相信他疯狂或经常酗酒,以便他们相信即使在不再符合他的利益时他也会发动报复性打击。同样,据称苏联克格勃在勃列日涅夫晚年时期有时也会捏造夸大他的痴呆程度的医疗报告,目的也是如此。即使这些故事不是真的,它们持续的传播表明了对战略承诺逻辑的理解。最终,五角大楼分析人员所关注的战略对称性被美国导弹部署战术的变化所复杂化,甚至可能被打破。他们装备了一支全球潜艇舰队,配备了足够的导弹,可以自行发动毁灭性的反击。这使得美国军事通信网络的可靠性变得不那么直接,从而引入了一个具有战略相关性的不确定因素。如果美国的生存前景变得绝望,总统可能就不那么确定能够联系到潜艇并取消它们的攻击命令。当然,这种打破对称性的价值取决于俄罗斯人是否意识到潜在问题。在斯坦利·库布里克的经典电影《奇爱博士》中,世界被意外摧毁,因为苏联建造了一个末日机器,它将自动触发报复性打击,而不管他们的领导层是否决心执行隐含的相互保证毁灭的威胁,但他们却将其保密。因此,当一个绝对疯狂的美国上校自行发射导弹袭击俄罗斯时,美国总统试图说服苏联同行这次袭击是无意的,后者羞怯地告诉他有关秘密末日机器的事情。现在,两位领导人除了眼睁睁地看着世界因博弈论错误而被摧毁之外,别无他法。

这个冷战僵局的例子虽然在博弈论史和其受欢迎程度上具有相当重要性,但当时所依赖的分析并不十分微妙。军事博弈论家几乎可以肯定地错误地将冷战建模为一次性的囚徒困境。首先,核平衡博弈纠缠在更大的全球权力博弈中,具有极大的复杂性。其次,对于任何一个超级大国来说,消灭对方而避免自我毁灭是否实际上是最高排名的结果还远非明确。如果在任何一种情况下或两种情况下都不是,那么这场博弈就不是囚徒困境。愤世嫉俗者可能会建议,双方的运筹学家在一场关乎资金的狡猾策略游戏中几乎是错误的,其中包括他们相互合作,以说服他们的政客为武器分配更多资源。

在更平凡的情况下,大多数人利用了亚当·斯密早先作为社会秩序理论核心的一种无处不在的承诺机制:人们对自己声誉的重视。即使我内心吝啬,我可能希望通过在餐馆给小费(包括那些我不打算再去的餐馆),让别人认为我慷慨。我越是这样做,我就越是在珍惜一个有价值的声誉,而一个明显的、被人察觉的小气行为可能会严重损害我辛苦赢得的声誉。因此,我为慷慨而努力赢得的声誉在特定的博弈中起到了一种承诺机制的作用,它本身强制继续再投资。随着时间的推移,我的善意可能变得习惯性,并且对环境变化变得不敏感,以至于分析者没有继续将我建模为偏好吝啬的经验依据。有很多证据表明,人类的超社会性得到了进化生物学倾向的支持(大多数人都有这种倾向),即情感上受到负面闲话和对其产生恐惧的影响。人们也天生喜欢八卦,这意味着当他们的承诺机制失败时,通过传播消息来惩罚他人是一种社会监督,他们并不觉得代价高昂,乐意参与其中。这种惩罚的一个好处是,与(比如)用棍子打人不同,它可以撤销,而不会给受罚者留下长期的伤害。这是一种设备的幸福属性,它的目的是维持对共同社会项目的贡献的激励;与骨折的队友相比,与骨折的队友合作通常更有成效。因此,宽恕的惯例在这种优雅的承诺机制中也起到了战略作用,这是自然选择为我们建立的。'宽恕的惯例'本身就是一种规范的实例,如第 4 节所讨论的,并且社区的规范为声誉管理提供了关键的社会支持。作为一个近似的概括,人们在成年后选择在三种广泛的声誉类型中进行投资:(i)大多数规范的维护者(可能涉及偏好伪装),(ii)大多数和新颖的少数规范的有区别的维护者(使用 Bicchieri(2017)的术语,是一种'潮流引领者'),或者(iii)个人主义叛逆者。人们往往发现这三种规范性人格类型都是可以解读的,这是一个有用声誉的关键要求。有用声誉的概念应该与普遍认可的声誉的概念区分开来。潮流引领者和叛逆者通常受到广泛的不赞成,但这本身可以帮助他们避免在其中选择破坏他们声誉和获得低物质回报之间的博弈;社会不赞成通常有助于潮流引领者和叛逆者相互协调。宗教故事或涉及康德式道德'理性'的哲学故事特别容易用来解释规范,因为人们没有意识到其中的博弈理论基础;而且所讨论的规范可能更有效地支持声誉,因为宗教或哲学故事隐藏了个体对声誉的战略控制程度。 (存在主义哲学家称这种机制为'虚伪')。这些故事触发真实的情感,特别是愤怒,这是一种直接的承诺机制,相互加强声誉的投资价值。

尽管所谓的'道德情感'对于维持承诺非常有用,但并非必需。众所周知,更大的人类机构在道德上通常是愚钝的;然而,承诺通常对它们的功能逻辑至关重要。例如,一国政府在某个特定场合诱使与恐怖分子谈判以确保人质的释放,可能会采取'底线策略'来维护一个以强硬形象闻名的声誉,以减少恐怖分子发动未来袭击的动机。澳大利亚的澳洲航空公司提供了另一种不同的例子。澳洲航空公司从未发生过致命事故,并且在一段时间内(直到发生一些令人尴尬的非致命事故,它可能担心引起注意)在其广告中大肆宣传这一点。这意味着,至少在那段时间里,它的飞机可能比平均水平更安全,即使最初的优势只是一点点的统计好运,因为它声称完美记录的价值随着时间的推移而上升,因此给予航空公司持续的激励来承担更高的安全保证成本。它可能仍然有动力采取额外的措施,以防止其致命事故记录越过 0 和 1 之间的魔法声誉线。

如果声誉效应要支持承诺,必须满足一定条件。一个人的声誉在她参与的一系列游戏中可能具有固定价值,但在这种情况下,她对其价值的关注应该被纳入到规定她参与的每个具体游戏的回报中。声誉只能通过重复游戏的进行来建立。然后,声誉的价值对其培育者必须大于在重复游戏的任何特定回合中牺牲它对她的价值。因此,玩家可以通过减少每轮的价值来建立承诺,以便在任何一轮中,背叛的诱惑从未达到构成难以抵抗的诱惑的程度。例如,合同的签订方可以逐步履行其义务,以减少双方违约的动机。因此,在建筑项目中,建筑商可以按周或月进行支付。同样,国际货币基金组织经常通过分期发放贷款给政府,从而减少政府违反贷款条件的动机;政府实际上可能更喜欢这样的安排,以消除国内政治压力,防止资金被非法使用。当然,我们都熟悉这样的情况,即在当前回合中,叛变的回报相对于声誉对未来合作的长期价值而言变得过大,我们醒来发现社会财务主管已经夜间携款潜逃。通过对声誉的关注来实现承诺是社会的粘合剂,但任何自然的粘合剂都远非完美有效。

进化博弈论

Gintis (2009b, 2009b) 认为“博弈论是统一行为科学的通用语言”,他对此感到正当。有很多好的例子可以证明这种统一性。Binmore (1998, 2005a)将社会复杂性增长的历史建模为一系列在常见交易博弈中越来越有效的均衡点的收敛,这些收敛点被一些人试图通过偏离稳定均衡路径来转向新均衡点的行为打断,结果导致了周期性的灾难。(例如,斯大林试图将他的社会转向一组均衡状态,其中人们更关心他们国家未来工业、军事和政治实力,而不是他们自己的生命。从长远来看,他并不成功;然而,他的努力确实创造了一种情况,使得在几十年里,许多苏联人对_他人的_生命重视程度远低于平常。)博弈论的视角在理解社会科学的整个范围内似乎是普遍有用的。例如,在 第 4 节 中,我们考虑了刘易斯的认识,即每种人类语言都是围绕信息传递的协调博弈中的一组纳什均衡网络。

考虑到他的工作年代,刘易斯把注意力限制在静态博弈论上,其中代理人被建模为在给定外生固定效用函数的情况下_选择_策略。由于这种限制,他的描述促使一些哲学家去追求对惯例合理性的一般分析理论(正如 Bickhard 2008 所指出的那样)。虽然 Binmore 在整个职业生涯中反复批评了这一重点(见参考文献),Gintis (2009a) 最近以特别清晰和坚定的方式明确了其中的根本问题。当应用于自然进化的计算机制(包括动物(包括人类)的大脑)时,NE 和 SPE 是_脆弱_的解决方案概念。正如我们在上文 第 3 节 中看到的,在具有多个 NE 的协调(和其他)游戏中,对于玩家来说经济上合理的行为高度依赖于其他玩家的学习状态。一般来说,当玩家们发现自己处于没有严格优势策略的游戏中时,他们只有在其他玩家可以预期找到_他们的_NE 或 SPE 策略时,才有动机去玩 NE 或 SPE 策略。哲学家所寻求的_一般_战略合理性理论能够合理地涵盖结果的偶然性吗?采用贝叶斯推理原则是试图将这种不确定性纳入有关理性、战略决策的理论的标准方式。然而,正如 Binmore (2009)Savage (1954) 的引导下所认为的那样,贝叶斯原理只在所谓的“小世界”中才是理性本身的原则,即在这些环境中,风险分布被量化为一组已知和可枚举的参数,就像我们在 第 3 节 中的河流穿越游戏的解决方案中所看到的那样。在大世界中,其中效用函数、策略集和信息结构难以估计,并且受到偶然的外生影响的影响,贝叶斯规则告诉玩家如何“理性”这一想法是相当不合理的。那么我们为什么要期望玩家在社会互动的广泛范围内选择 NE、SPE 或顺序均衡策略呢?

正如 Binmore(2009)和 Gintis(2009a)都强调的那样,如果要用博弈论来模拟实际的、自然的行为及其历史,除了微观经济学家(但不包括宏观经济学家、政治学家、社会学家或科学哲学家)主要研究的小世界环境之外,我们还需要一些关于博弈均衡的吸引力的解释,即使没有分析能够通过驯服所有不确定性的方式来识别它们,使其能够被表示为纯粹的风险。再次参考刘易斯的话题,当人类语言发展起来时,并没有外部裁判关心并安排帕累托效率,提供协调的焦点。然而,不知何故,人们在语言社群内约定使用大致相同的词汇和结构来表达类似的事物。似乎不太可能有任何明确的、有意识的策略制定在这些过程中起到作用。然而,博弈论已经被证明是理解语言稳定化的基本概念。这是对 Gintis 对博弈论影响力的乐观态度的有力支持。要理解这一点,我们必须将注意力扩展到进化博弈。

自从 Maynard Smith(1982)及其合作者的开创性工作以来,博弈论已经在进化生物学中得到了富有成果的应用,其中物种和/或基因被视为参与者。进化(或动态)博弈论随后发展成为一个重要的数学扩展,具有几个不同的子扩展,适用于除生物学之外的许多环境。Skryms(1996)使用进化博弈论试图回答刘易斯甚至无法提出的问题,即关于语言、公正概念、私有财产观念以及其他对哲学家感兴趣的非设计的普遍现象产生的条件。进化博弈论的新颖之处在于个体代理人不通过深思熟虑来选择行动。相反,代理人通常被硬编码为特定的策略,并且策略的成功是根据它在后续世代的游戏中留下的自身副本数量来定义的,假设在其他策略分布在特定频率的人口中进行行动。在这种问题设置中,策略本身就是参与者,而玩这些策略的个体是它们相对盲目的执行者,他们获得与结果相关的即时成本和收益,不是因为他们选择了所讨论的结果,而是因为他们的祖先反复从类似的游戏结果中获益。

这里的讨论将紧密跟随 Skyrms 的。这涉及到一种普遍性的限制。上面提到了进化博弈论包括“不同的子扩展”。这意味着,就像经典博弈论一样,它包含了多种“解决方案”概念。严格来讲,这些是动态稳定性的不同概念,这与经典博弈论中的文字解概念所代表的经济均衡概念是不同的。一部广泛的文献(见下文)将进化博弈的稳定性概念映射到经典解概念上。回顾稳定性概念的范围将在当前背景下涉及冗余,因为这是斯坦福哲学百科全书中姐妹词条的主要任务,该词条由 J. McKenzie Alexander 编写:博弈论,进化。这与 Alexander(2023)中对哲学问题的更充分阐述相辅相成,而 Alexander(2023)又依赖于 Weibull(1995)和 Samuelson(1997)的经典文本中所审查的形式基础。Skyrms 在这里总结的分析仅依赖于稳定性概念中的一个,即复制动力学。

考虑自然选择如何改变动物的谱系,改变、创造和毁灭物种。基本机制是差异繁殖。任何具有可遗传特征的动物,在一个相对稳定的环境中,其预期后代相对频率增加,往往会在生物群体中变得更为普遍。这些后代通常会继承相关特征(由于突变而存在一些变异,由于统计噪声存在一些频率变异)。因此,随着世代的变化,这些特征在人口中的比例将逐渐增加。其中一些特征可能会固定下来,也就是最终占据整个人口(直到环境改变)。

博弈论如何介入其中?通常,生物体环境中最重要的一个方面是其他生物体的行为倾向。我们可以将每个谱系视为“努力”通过找到对其他谱系的策略来最大化其繁殖适应度(即其独特遗传结构的未来频率)。因此,进化理论是非参数分析的另一个应用领域。

在进化博弈论中,我们不再将个体在从一个游戏转移到另一个游戏时选择策略。这是因为我们的兴趣不同。我们现在关注的不再是找到单个游戏的均衡,而是发现哪些均衡是稳定的,以及它们将如何随时间变化。因此,我们现在将策略本身建模为相互对抗。如果一种策略在下一代中可能留下更多的自身副本,那么它就比另一种策略“更好”,当游戏再次进行时。我们研究随着游戏序列展开,种群中策略分布的变化。

对于复制动力学,我们引入了一个新的动态稳定性(“平衡”)概念,这要归功于 Maynard Smith(1982)。一组策略,以某种特定比例(例如,1/3:2/3,1/2:1/2,1/9:8/9,1/3:1/3:1/6:1/6——总和始终为 1)处于 ESS(进化稳定策略)平衡,只要(1)没有一个采用某一策略的个体可以通过转换到比例中的其他策略之一来改善其生殖适应度,以及(2)没有一个采用完全不同策略的突变体可以建立自己(“侵入”)到人口中。

进化博弈论的原则最好通过例子来解释。Skyrms 首先通过调查条件来解释正义的原则——在他特定分析中被理解为一种倾向,即除非效率考虑在特殊情况下建议否则将资源平均分配视为公平。他要求我们考虑一个人口,其中个体经常相遇并必须就资源进行讨价还价。从三种类型的个体开始:

  1. 公平者总是要求获得资源的一半。

  2. 贪婪者总是要求获得超过一半的资源。当一个贪婪者遇到另一个贪婪者时,他们会因争夺资源而浪费资源。

  3. 谦逊者总是要求少于资源的一半。当一个谦逊者遇到另一个谦逊者时,他们会拿走少于所有可用的资源,并浪费一些。

每一次遭遇,总需求量达到 100%的情况都是该个体博弈的纳什均衡。同样地,可能存在许多动态均衡。假设贪婪者要求资源的 2/3,而谦逊者要求资源的 1/3。然后,假设遭遇是随机配对的,以下两个比例是 ESSs:

  1. 一半的人口是贪婪的,另一半是谦逊的。我们可以在这里计算平均回报。每次遭遇时,谦逊得到资源的 1/3。当她遇到谦逊时,贪婪得到 2/3,但当她遇到另一个贪婪时什么也得不到。因此,她的平均回报也是 1/3。这是一种 ESS,因为 Fairman 无法入侵。当 Fairman 遇到谦逊时,他得到 1/2。但当 Fairman 遇到贪婪时,他什么也得不到。因此,他的平均回报只有 1/4。没有谦逊有动机改变策略,也没有任何贪婪者。在人口中出现的突变 Fairman 将是最糟糕的,因此选择不会鼓励任何这类突变体的传播。

  2. 所有的玩家都是 Fairman。每个人总是得到一半的资源,没有人可以通过转换到另一种策略而获得更好的结果。进入这一人口的贪婪者遇到 Fairman,平均回报为 0。谦逊者像以前一样得到 1/3,但这少于 Fairman 的 1/2 的回报。

注意,平衡(i)是低效的,因为整个人口的平均回报较小。然而,正如静态博弈的低效结果可以是纳什均衡一样,它们也可以是进化博弈的 ESSs。

我们将出现多于一种策略的平衡称为多态性。一般来说,在 Skyrms 的游戏中,任何一个贪婪要求 x 而谦逊要求 1−x 的多态性都是 ESS。对正义的学生感兴趣的问题是这些不同平衡出现的相对可能性。

这取决于原始人口状态中策略的比例。如果人口开始时有多于一个 Fairman,那么 Fairmen 会相遇并获得可能的最高平均回报的概率就会增加。Modests 本身并不会抑制 Fairmen 的传播;只有 Greedies 会。但是 Greedies 本身取决于周围有 Modests 才能生存。因此,相对于 Greedies 和 Modests 的配对,人口中 Fairmen 的数量越多,Fairmen 的平均表现就越好。这意味着存在阈值效应。如果 Fairmen 的比例下降到 33%以下,那么它们很可能会灭绝,因为它们相遇的次数不够频繁。如果 Fairmen 的人口比例超过 33%,那么它们很可能会上升到固定状态,因为它们相遇时的额外收益弥补了它们与 Greedies 相遇时的损失。您可以通过注意到当每种策略被人口的 33%使用时,所有策略的预期平均回报都是 1/3 来看到这一点。因此,Fairmen 在这个阈值之上的任何增长都会倾向于将它们推向固定状态。

这一结果表明,在特定的相对一般的条件下,我们所定义的正义是如何动态产生的。如果我们引入相关的博弈(不要与第 3.1 节和本文其他地方提到的相关均衡概念混淆),那么正义的粉丝们的消息会变得更加令人振奋。

我们刚才考虑的模型假设策略之间没有相关性,也就是说,每种策略相遇的概率是它们在人口中相对频率的简单函数。现在我们来看看当我们引入相关性时,我们的动态资源分配游戏会发生什么。假设公平人有能力略微区分并寻找其他公平人作为互动伙伴。在这种情况下,公平人平均表现更好,这必然会降低他们达到固定状态的门槛。

一位进化博弈模型研究者通过运行大规模的计算机模拟来研究相关性和其他参数约束的影响,其中各种策略在虚拟环境中一轮又一轮地竞争。策略的初始比例和任何选择的相关程度都可以简单地在程序中设置。然后可以观察其随时间展开的动态,并测量它在任何一个平衡状态下停留的比例。这些比例由不同可能平衡状态的吸引盆的相对大小表示。平衡状态是动态空间中的吸引点;每个这样的点的吸引盆是空间中的一组点,从这些点中人口将收敛到相应的平衡状态。

在将相关性引入他的模型时,Skyrms 首先将相关性程度设定为非常小的 0.1。这导致平衡点(i)的吸引盆地缩小了一半。当相关性程度设定为 0.2 时,多态盆地缩小到种群开始多态性的点。因此,即使是非常小的相关性增加也会导致平衡点的稳定性大幅增加,每个人都会选择公平人(Fairman)的策略。在大多数人口中,存在一定程度的相关性是一个合理的假设,因为邻居倾向于相互作用和模仿彼此(无论是基因上的还是因为有意模仿对方的倾向),而且基因和文化相似的动物更有可能生活在共同的环境中。因此,如果正义能够出现,它往往会占主导地位并保持稳定。

政治哲学的很大一部分包括试图提出演绎的规范性论证,旨在说服一个不公正的行为者她有理由行事公正。Skyrms 的分析提出了一种完全不同的方法。如果 Fairman 采取积极措施来保持相关性,他将在动态博弈中表现最好。因此,进化的压力会促使正义的道德认可和公正的制度出现。大多数人可能认为 50-50 的分配是“公平”的,并且值得通过道德和制度的奖励和制裁来维持,因为我们是促使我们倾向于这样思考的动态博弈的产物。第二次翻译:

进化博弈论家们最关注的话题是利他主义,它被定义为有机体的任何行为,在单次互动中减少了自身预期适应度,但增加了另一互动者的适应度。这在自然界中很常见。然而,鉴于达尔文式的竞争,它又是如何产生的呢?

Skyrms 通过使用动态囚徒困境来研究这个问题。这只是在人口中进行的一系列 PD 游戏,其中一些成员是背叛者,另一些是合作者。正如在进化博弈中一样,回报是以未来世代中每种策略的预期复制数量来衡量的。

让 U(A) 表示种群中策略 A 的平均适应度。让 U 表示整个种群的平均适应度。那么下一代中策略 A 的比例就是 U(A)/U 的比率。因此,如果 A 的适应度高于种群平均适应度, A 就会增加。如果 A 的适应度低于种群平均适应度, A 就会减少。

在动态 PD 中,交互是随机的(即,没有相关性),只要周围有合作者,背叛者就比种群平均适应度更好。这是因为,正如我们在 2.4 节中看到的那样,背叛在单场游戏中始终是占优势的策略。因此,100%的背叛是动态游戏中没有相关性的 ESS,对应于一次性静态 PD 中的 NE。

然而,引入相关性的可能性彻底改变了情况。我们现在需要计算一种策略在与每种可能策略相遇的概率下的平均适应度。在进化囚徒困境中,概率高与其他合作者相遇的合作者比概率高与其他背叛者相遇的背叛者表现更好。因此,相关性有利于合作。

为了能够更准确地描述相关性与合作之间的关系(以及为了能够将进化博弈论与决策理论的问题联系起来,这超出了本文的范围),Skyrms 引入了一个新的技术概念。他称之为自适应可证实策略,如果在动态空间中其固定点周围存在一个区域,从该区域的任何位置出发,它将趋向于固定点。在进化囚徒困境中,无论是背叛还是合作都是自适应可证实的。吸引盆地的相对大小对于实现相关性的特定机制非常敏感。为了说明这一点,Skyrms 构建了几个例子。

Skyrms 的模型之一通过对互动配对引入相关性的方式来介绍。假设在动态囚徒困境的第一轮中,个体相互检查并根据所发现的情况进行互动或不互动。在第二轮和随后的轮次中,所有在第一轮中没有配对的个体将被随机配对。在这个博弈中,除非第一轮中有高比例的合作者,否则叛徒的吸引盆地将很大。在这种情况下,叛徒在第一轮中无法配对,然后在第二轮中主要与其他叛徒配对,并将彼此推向灭绝。更有趣的模型是因为其机制不那么人为,不允许个体选择他们的伴侣,而是要求他们与最接近他们的人进行互动。由于遗传相关性(或通过复制进行的文化学习),个体更有可能与他们的邻居相似。如果这个(有限的)人口沿着一个维度(即沿着一条线)排列,并且合作者和叛徒以随机方式引入到其中的位置上,那么我们得到以下动态。孤立的合作者的预期适应度低于周围的叛徒,并在局部上被推向灭绝。两个合作者组成的群体有 50%的概率相互互动,有 50%的概率与一个叛徒互动。结果是,他们的平均预期适应度仍然小于他们邻近的叛徒,他们也面临可能的灭绝。三个合作者组成一个不稳定的点,从这个点出发,灭绝和扩张的可能性是相等的。然而,在四个或更多合作者的群体中,至少有一次合作者与合作者的相遇足以至少替换原始群体。在这种情况下,合作者作为一个群体比周围的叛徒表现得更好,并以他们的代价增加。最终,合作者几乎达到固定状态,但并非完全如此。人口边缘的单个叛徒捕食末端的合作者,并作为小的“犯罪社区”幸存下来。因此,我们看到利他主义不仅可以通过进化博弈的动力学来维持,而且在相关性的作用下,甚至可以传播和殖民原本非利他的人口。

达尔文动力学因此为合作提供了有限的好消息。然而,请注意,只有在个体被固定于其自然或文化编程并且无法自行重新评估其效用时,这一点才成立。如果我们的个体变得过于聪明和灵活,他们可能会意识到自己处于囚徒困境,并且每个人最好都选择背叛。在这种情况下,他们最终将自行推向灭绝,除非他们发展出稳定且有效的规范来加强合作。但是,当然,这正是我们预期在平均适应度水平与成功社会合作能力密切相关的动物群体中进化的。即使在这种情况下,这些群体也将灭绝,除非他们出于某种原因关心未来的后代。但是,如果每一代新的后代在每一代人员更替时完全取代前一代,那么就没有非感性的理由可以解释为什么个体应该关心未来的后代。因此,经济学家在建模跨时期分配博弈时使用“重叠代际”模型。第一代的个体将资源储蓄给第三代的个体,他们希望与之合作;到了第三代,新的个体关心第六代;依此类推。

Gintis (2009a) 论述了当我们着手使用进化博弈论来统一行为科学时,我们应该首先用它来统一博弈论本身。在本文的几个早期部分中,我们已经指出,NE 和 SPE 在许多应用中都是有问题的解决方案概念,因为在缺乏稳定规范或明确制度规则的情况下,代理人只有在他们确信其他代理人也会如此时才有动机去玩 NE 或 SPE。在代理人没有这种信心的情况下,应该预测到的是普遍的混乱和社会困惑。但现在我们可以从前面的几个部分汇集一些线索。从 Aumann(1974) 那里,我们得知相关均衡可以在某些条件下解决贝叶斯学习者的这个问题。Gintis 通过想象存在一个他称之为“编舞者”的存在来使这一点具体化。进化博弈论显示了达尔文选择过程如何可以充当这样一个编舞者。

但是,当涉及到智能的战略代理人,比如人类时,自然的编舞者可能会被篡夺,因为代理人可能会试图优化不符合其选择历史所操作的适应性标准的效用函数。然后,玩家们需要某种平衡选择机制来避免失调。文化进化,另一个达尔文选择过程,可能会为他们提供作为焦点的规范。这还不足以确保哈尔萨尼原则的应用,后者是确保识别相关均衡所必需的(Aumann 1987))。一个主要问题是,如果规范依赖于偏好伪装,那么规范可能会崩溃。但人们可以通过思维塑造来即时协商新的规范。条件博弈论(2.0)提供了这种思维塑造战略方面的一个模型,它还允许玩家了解彼此对预期效用理论的系统偏离,从而恢复哈尔萨尼原则适用的条件。

但是,当然,真实的人类经常会遇到彼此作为文化陌生人的情况,他们在没有充分信息的情况下就“真实地玩耍”,没有先前的机会。当我们对博弈论模型在应用于良好结构化市场或严密监管的机构环境之外的人类行为时产生疑问时,很大程度上取决于我们认为可信且经验证的协调信息和信念的来源。我们何时以及如何假设人们有动机获取这些信息和信念,这通常涉及成本?这已经成为最近广泛讨论的主题,在下面的 8.3 节中我们将进行回顾。

8. 博弈论与行为证据

在前几节中,我们审视了一些由于将古典(非进化的)博弈论作为一种规范理论来处理所产生的问题,该理论告诉人们在战略情境中如果希望理性的话应该做什么。正如我们所看到的那样,困难在于似乎没有一个解决方案概念可以毫无保留地推荐给所有情况,特别是在代理人拥有私人信息的情况下。然而,在前一节中,我们展示了如何借助进化基础来阐明那些由理论家明确制定的效用函数可以合理地应用于人群的条件,从而导致具有合理和稳定解的博弈论模型。然而,到目前为止,我们还没有审查来自行为观察或实验的任何实际经验证据。博弈论确实帮助了实证研究人员发现了关于行为(无论是人类还是其他生物)的新发现吗?如果是这样,那么一般来说这些发现的内容是什么?

在回答这些问题时,我们立即面临一个认识论问题。没有办法独立于其他建模技术而单独应用博弈论。使用科学哲学中的标准术语,人们只能在与有关现象的“辅助假设”同时测试博弈论模型。至少,如果严格地将博弈论纯粹视为数学,没有自身的经验内容,那么就会得出这样的结论。在某种意义上,一个没有经验内容的理论根本就不可能接受任何测试;人们只能担心该理论基于的公理是否相互一致。然而,数学理论仍然可以根据其经验上的用处来评估。有一种哲学批评有时对博弈论提出,将其解释为一种用于建模行为现象的数学工具,即其应用总是或通常需要诉诸于关于这些现象的错误、误导性或过于简化的假设。我们期望这种批评在不同的应用背景下会有不同程度的影响,因为辅助假设是变化的。

事情就是这样。在应用博弈论的领域中,没有一个是完全没有争议的。然而,对于如何运用博弈论(无论是经典的还是进化的)来理解非人类动物的行为,通常存在更容易达成共识,而在如何运用博弈论来解释和预测人们的战略活动方面,却存在更多争议。在我们全神贯注于博弈论社会科学之前,让我们首先简要考虑一下在非人类生物学中应用博弈论所引发的哲学和方法论问题。

最不具争议的博弈论建模是将该理论的经典形式应用于考虑非人类动物寻求获取与其进化锦标赛相关的基本资源的策略。为了最大化其预期适应度,动物必须在各种中间产品之间找到最佳的权衡,比如营养、免受捕食的安全性以及能够击败配偶竞争对手。在特定物种和特定环境条件下,这些产品之间的有效权衡点通常可以估计出来,并且可以基于这些估计得出参数和非参数均衡。这类模型在预测和解释独立的实证数据方面取得了令人印象深刻的记录,例如竞争觅食、配偶选择、亲属主义、兄弟姐妹之间的竞争、聚群、集体反捕食者警惕和信号传递、互惠性的梳理以及种间共生(共生)。(例如,参见 Krebs 和 Davies 1984 年,Bell 1991 年,Dugatkin 和 Reeve 1998 年,Dukas 1998 年,以及 Noe、van Hoof 和 Hammerstein 2001 年。)另一方面,正如 Hammerstein(2003 年)所观察到的,互惠性及其利用和元利用在社会非人类动物中出现得要少得多,这与博弈论建模所预期的情况不太一样。Hammerstein 提出的一个解释是,非人类动物通常比人类更少地能够限制他们的互动伙伴。我们在前一节中讨论的相关性对于稳定博弈解的重要性,从理论上支持了这一观点。

为什么古典博弈论能更直接地帮助预测非人类动物的行为,而不像大多数人类行为那样?答案被假定在辅助假设和现象之间的不同复杂程度中。Ross (2005a) 提供了以下解释。效用最优化问题是经济学的领域。经济理论确定了最优化单位——经济主体——其偏好场是不变的。将整个生物个体与这样的经济主体进行识别,在认知上不够复杂的生物中更为可信。因此,昆虫(例如)非常适合应用显性偏好理论(见第 2.1 节)。然而,随着神经系统变得更加复杂,我们遇到了会学习的动物。学习可以导致动物行为模式的足够程度的永久修改,以至于我们只能以解释上的空洞为代价,保持在修改过程中将生物个体的识别与单一主体相一致(因为效用函数的分配变得越来越是特定情况下的)。此外,增加的复杂性使简单建模在第二维度上变得混乱:认知上复杂的动物不仅会随时间改变其偏好,而且受到分布式控制过程的支配,使它们成为内部主体之间竞争的场所(Schelling 1980; Ainslie 1992, Ainslie 2001)。因此,即使在某一时刻,它们也不是直接的经济主体。在试图使用经济理论的任何部分,包括博弈论,来建模人们的行为时,我们必须认识到,我们为建模目的构建的任何特定个体与经济主体之间的关系总是比简单的一致性更加复杂。

没有一个明显的交叉点,使得动物变得过于认知复杂而无法被建模为单一的经济主体,对于所有动物(包括人类),都存在我们可以有用地忽略复杂性的同步维度的情境。然而,当我们从非社会动物转向非真社会的社会动物时,我们遇到了建模动态的一个相位转变。(这指的是社会动物,它们是社会性的,但不像蚂蚁、蜜蜂、黄蜂、白蚁和裸鼠等,通过基因组的根本变化使得群体内的个体几乎成为克隆。一些已知的例子包括鹦鹉、鸦科鸟类、蝙蝠、老鼠、犬科动物、鬣狗、猪、浣熊、水獭、大象、岩狸、鲸目动物和灵长目动物。)在这些情况下,内部控制动态的稳定部分地位于个体之外,处于群体动态的层面。对于这些生物,将个体建模为经济主体,具有单一全面的效用函数,是一种极端理想化,只有在最大程度上的方法论谨慎和对特定建模练习相关的特定情境因素的关注下才能实现。在这里,博弈论的应用只有在经济建模在经验上是充分的情况下才是经验上充分的。

H. sapiens 在这方面是一个极端的例子。与大多数其他非真社会性物种相比,个体人类在社会上受到极高程度的控制。与此同时,他们极高的认知可塑性使得他们在不同文化之间存在显著差异。因此,人类是所有生物中最不直接的经济主体。(因此,可以认为他们最初和多年来被视为经济行为的典型实例,是具有讽刺意味的,因为他们据称具有更高的“理性”。)我们将在下文中考虑这对博弈论应用的影响。

然而,首先需要对进化博弈论在解释和预测代理人群体中战略性倾向分布的经验充分性进行评论。这种建模既适用于动物作为自然选择的产物(Hofbauer 和 Sigmund,1998),也适用于非真社会性动物(尤其是人类)作为文化选择的产物(Boyd 和 Richerson,1985;Young,1998)。在构建这类应用程序时,必须针对特定情况有理由相信所寻求解释的倾向(无论是生物学的还是文化的)是适应性的,即它们之所以被选择并保持下去是因为它们促进了自身适应度或更广泛系统的方式,而不是偶然事件或其他适应性的结构上不可避免的副产品。(有关此问题的一般讨论,请参见 Dennett,1995。)其次,必须能够将建模企业置于关于不同时间尺度上嵌套进化过程的一组合理化的假设背景中。(例如,在具有文化动力学的物种的情况下,缓慢的遗传进化如何限制快速的文化进化?如果文化进化反馈,它如何反馈到遗传进化中?有关这些问题的精彩讨论,请参见 Sterelny,2003。)关于人类进化应该做出哪些假设的不同观点是进化博弈论中关于人类行为倾向和制度建模的活跃争议的基础。这是进化博弈论中的问题与行为实验博弈论蓬勃发展领域相遇的地方。因此,在介绍刚提到的争议的同时,我们将首先考虑第二个领域,这个领域现在构成了博弈论基础和应用中最活跃的哲学论证领域的感觉。

8.1 Game Theory in the Laboratory

经济学家自从由 Thurstone (1931)的开创性工作以来,一直通过对人类和其他动物进行实验室实验来测试理论。近几十年来,这类工作的数量变得庞大。其中绝大部分将实验对象置于不完全竞争的微观经济问题环境中。由于这恰恰是微观经济学崩溃为博弈论的条件,因此大部分实验经济学都是实验性的博弈论。因此,很难区分实验动机的问题是关于微观经济理论的实证充分性,还是关于博弈论的实证充分性的问题。

我们在这里只能对一部庞大而复杂的文献进行概述。读者可参阅 Kagel 和 Roth(1995)、Camerer(2003)、Samuelson(2005)的评论综述,以及 Guala(2005)的方法论评论。一个有用的高层次原则是将文献索引到不同的辅助假设,这些假设用于应用博弈论公理。通常在通俗的介绍中(例如,Ormerod 1994),实验数据通常都否定了人们是理性经济主体的假设。这些说法过于不精确,无法持续解释结果。所有数据都支持这样一种观点:人们是近似的经济主体,至少在足够长的时间段内,可以对特定情景进行博弈论分析,从最基本的意义上说,他们的行为可以与“揭示偏好理论”(见第 2.1 节)兼容地建模。然而,“揭示偏好理论”对经验的要求很少,因此这并不像许多非经济学家所想象的那样令人惊讶(Ross 2005a)。在围绕实验证据的一些辩论中,真正的问题是人们在多大程度上是期望效用的最大化者。正如我们在第 3 节中看到的,期望效用理论(EUT)通常与博弈论一起应用,以模拟涉及不确定性的情况——也就是说,在行为科学中大多数感兴趣的情况。然而,各种替代的效用结构模型适用于冯·诺依曼-摩根斯坦主观效用的基数化,并可用沙维奇(1954)的主观效用公理的子集来定义。只有当我们认为人们的行为通常无法用基数 vNMufs 来描述时,博弈论的经验效用性才会受到质疑。

实验文献真正显示的是,从理论家的角度来看,行为通常是嘈杂的。所谓的噪音来自于人们之间以及(人、情境)向量之间的实质性异质性。没有一个单一的结构性效用函数,使得所有人在所有情况下都会行动以最大化该结构的函数。面对在不过分苛刻或高度制度化的情境中所学习良好的问题时,人们通常会像期望效用最大化者一样行动。有关理论问题和证据的一般评论,请参阅 Smith(2008)和 Binmore(2007)。有关一系列延伸的实证研究示例,请参阅所谓的“连续双向拍卖”实验,这些实验在 Plott 和 Smith 1978 以及 Smith 1962、1964、1965、1976、1982 中有所讨论。因此,在这些领域,经典博弈论可以被高度可靠地用来预测行为并实施公共政策,正如由博弈论家设计的数十次极其成功的政府公共事业和其他资产拍卖所证明的(Binmore and Klemperer 2002)。

在其他情境中,将人们的行为解释为通常的期望效用最大化需要对理论构建的普遍性的需求进行不必要的侵犯。如果我们假设受试者根据一个或(通常)多个几种选择进行最大化,我们可以更好地预测,而且使用更少的特定案例限制:排名依赖效用理论(Quiggin 1982,Yaari 1987),或 α-ν 效用理论(Chew and MacCrimmon 1979)(这里不会进行描述,因为它们与博弈论无直接关系)。事实上,第一个选择表示一系列备选规范。其中之一,Prelec(1998)的规范已经在积累的大量经验估计中作为统计上最有用的模型出现,用于观察到的人类在风险和不确定性下的选择。Harrison 和 Rutstrom(2008)展示了如何设计和编码最大似然混合模型,这些模型允许经验建模者将一系列这些决策函数应用于单一的选择数据集。由此产生的分析确定了由混合中的每个模型最好解释的总选择集的比例。Andersen 等人(2014)将这种方法应用到了当前的最新技术,展示了在混合中包括非最大化心理过程模型以及最大化经济模型的经验价值。在博弈论的实证应用中可以部署的决策建模的有效灵活性,减轻了对寻求博弈论结构调整的大部分压力。因此,这与将博弈论解释为行为科学家的数学工具包的解释非常契合,而不是作为人类心理学的一级经验模型。

对博弈论实用性的更严重威胁是有关人类和其他动物的偏好系统性逆转的证据。这更为严重,因为它不仅限于人类案例,而且挑战了揭示偏好理论(RPT),而不仅仅是对期望效用理论(EUT)不必要的刚性承诺。如第 2.1 节所述,与 EUT 不同,RPT 是博弈论的公理基础之一,被解释为非心理学的。 (并非所有作者都同意表面上的偏好逆转现象威胁 RPT 而不是 EUT;但请参阅 Camerer(1995),第 660-665 页,以及 Ross(2005a),第 177-181 页中的讨论。)在具有大脑的动物中,偏好逆转的基础似乎是未来的超越性贴现(Strotz 1956,Ainslie 1992)。这是一种现象,即代理人在距离当前参考点的时间距离较近时更 steeply 折扣未来奖励,而在更远的时间距离时则不那么 stepply。通过与大多数传统经济模型中的指数贴现的想法进行对比,可以更好地理解这一点,在这些模型中,支付的价值从参考点下降的速度与到支付的距离的变化率之间存在线性关系。下图显示了相同时间间隔内的指数和超越曲线,从参考点到未来支付。下面的图表显示了超越函数;弯曲的形状是由于贴现率的变化而产生的。

图 15

这样的一个结果是,随着以后的前景越来越接近可能的消费点,人类和其他动物有时会花费资源来消除之前行动的后果,而这些行动也会耗费他们的资源。例如:今天决定是批改一堆本科生论文还是看一场棒球比赛,我拖延了,尽管我知道这样做会使我错过明天可能出现的更有趣的可能性(如果更好的选择没有出现的话,明天同样有一场同样吸引人的球赛)。到目前为止,这可以通过一种方式来解释,以保持偏好的一致性:如果世界今晚可能会结束,尽管概率很小但不为零,那么在某种风险厌恶水平下,我宁愿不批改论文。下图比较了两条指数折现曲线,较低的曲线代表我在完成批改之前观看的比赛的价值,较高的曲线代表我在完成工作后享受的更有价值的比赛。两者都在参考点附近有更高的价值;但曲线不相交,因此无论我有多么急躁,我的显性偏好随时间保持一致。

图 16

但是,如果我通过购买明天比赛的门票来约束自己不再拖延,而在没有这个可怕的任务的情况下,我本不会这样做,那么我就违反了跨时间偏好的一致性。更生动地说,如果上周我有机会选择是否拖延今天,我本不会选择拖延。在这种情况下,以上周的参考点为基础绘制的我的折扣曲线与以今天的角度绘制的曲线相交,我的偏好发生了逆转。下图显示了这种情况。

图 17

这种现象使得将古典博弈论应用于智能动物变得复杂。然而,这显然并没有完全使其无效,因为人们(和其他动物)经常不会改变他们的偏好。(如果这不是真的,成功的拍卖模型和其他所谓的“机制设计”将是神秘的。)有趣的是,旨在解释为什么双曲折扣者经常会按照 RPT 行事的主要理论本身就依赖于博弈论原理。Ainslie(1992,2001)提出了一个关于人们作为内部议价利益共同体的描述,其中基于短期、中期和长期利益的子单元面临冲突,他们必须解决这些冲突,因为如果他们不这样做,而是产生内部的霍布斯式崩溃(第 1 节),那些避免霍布斯式结果的外部代理人可以毁掉他们所有人。大脑无法使用霍布斯式暴君的手段。因此,它的行为(当避免系统级疯狂时)是一系列类似于博弈论公共选择文献中对民主立法机构中的联合议价进行研究的自我强化均衡。也就是说,大脑的内部政治包括“互惠交易”(Stratmann,1997)。然后,这些内部动态部分受到更广泛社会博弈的调节和稳定,这些博弈中包括联合体(人们作为其生平的时间子部分)(Ross,2005a,第 334-353 页)。 (例如:关于某人作为销售人员角色的社会期望为他们大脑中的互惠交易过程设定了行为均衡目标。)这可能进一步增加了解释为什么和如何相对透明规则的稳定机构是帮助人们更接近直接经济主体的关键条件,从而使得古典博弈论能够可靠地应用于他们作为整体单位的解释的相关要素。

这里需要注意的一点很重要。最近的许多行为文献默认认为,时间上不一致的折现是人们的标准或默认情况。然而,Andersen 等人(2008)在实证上表明,这是由于(i)假设人群在描述其折现行为时是同质的,并且(ii)未能独立引出和控制人们在估计其折现函数时的不同风险厌恶水平。在考虑了这两点的一系列人群中,数据表明,时间上一致的折现描述的选择比时间上不一致的选择要多得多。因此,应避免过度概括双曲线折现模型。

8.2 Neuroeconomics and Game Theory

如前一节所建议的那样,博弈论可以在大脑内部动态中找到新的应用的想法,是由神经经济学这一研究项目独立动机发展而来的(Montague and Berns 2002, Glimcher 2003, Ross 2005a, pp. 320–334, Camerer, Loewenstein and Prelec 2005)。由于新的非侵入式扫描技术,特别是功能性磁共振成像(fMRI)的出现,最近已经有可能研究工作中的大脑在对控制性线索做出反应时的突触活动。这使得一条新的获取途径成为可能,尽管这仍然是一种高度间接的途径(Harrison and Ross 2010),用以计算奖励的预期价值,而这些价值(自然地)被认为在决定行为中起着至关重要的作用。经济理论被用来构建由突触水平计算这些预期价值的最大化函数的推导,因此得名“神经经济学”。

博弈论在神经经济学中发挥着两个层面的主导作用。首先,博弈论已被用来预测服务奖励系统的个体神经元和神经元群体必须执行的计算。在最广为人知的例子中,Glimcher(2003)和他的同事们对他们训练过的猴子进行了 fMRI 扫描,让它们玩所谓的“检查游戏”以对抗计算机。在检查游戏中,一名玩家面临一系列选择,要么为了奖励而工作,这样他肯定会得到奖励,要么执行另一个更容易的动作(“逃避责任”),在这种情况下,只有在另一名玩家(“检查员”)不监视他时,他才会得到奖励。假设第一名玩家(“工作者”)的行为揭示了一个边界在每一端都有限的效用函数:如果检查员总是监视,他将在每个场合都工作,如果检查员从不监视,他将在每个场合都逃避责任。检查员更倾向于以最低的监视率获得尽可能多的工作量。在这个游戏中,对于两名玩家来说,唯一的纳什均衡都是在混合策略中,因为另一名玩家可以利用任何一名玩家策略中可以被发现的任何模式。对于两名玩家的具体效用函数对于满足上述约束的任何给定对来说,在每次试验中,无论是工作者对工作和逃避责任都无所谓,还是检查员对监视和不监视都无所谓,都是一个纳什均衡。

将检验博弈分析应用于代理人的配对或群体需要我们要么独立地证明他们对与他们的游戏相关的所有变量的效用函数,这样我们就可以定义 NE,然后测试看他们是否成功地最大化了期望效用;要么假设他们最大化了期望效用,或者遵守其他规则,比如匹配函数,然后从他们的行为中推断他们的效用函数。在不同的经验背景下,这样的程序都是合理的。但是,如果检验员的效用函数是外生确定的,那么认识论的杠杆作用就会大大增加,正如通常情况下所是的那样。(例如,实施随机路边检查以抓住酒后驾车的警察通常会被政策分配一个最大的酒后驾车发生率的目标,并且有一个外生设定的预算。这些确定了他们的效用函数,考虑到驾驶员群体的偏好和风险态度的分布。)在 Glimcher 的实验中,检验员是一台计算机,因此它的程序是在实验控制之下的,它的收益矩阵的一侧是已知的。在这种情况下,可以在参数测试设置中预先确定代表受试者期望效用的变量,比如对猴子来说是果汁的喷射。然后,计算机被编程为使用猴子的经济模型,并且可以在游戏条件下搜索他们的行为数据以寻找可利用的模式,并相应地调整其策略。在这些变量固定的情况下,可以计算并测试猴子通过最大化期望效用的 NE 行为,并通过在游戏的各个运行中操纵计算机的效用函数来进行测试。

训练后的猴子行为非常稳健地跟踪 NE(进行类似游戏以获取货币奖励的人的行为也是如此;Glimcher 2003, pp. 307–308)。与训练过的猴子合作,Glimcher 和他的同事随后进行了这里的重要实验。通过与盯着视觉显示器的右侧或左侧进行训练,猴子的工作和逃避行为已经与他们的训练相关联。在早期的实验中,Platt 和 Glimcher(1999)已经确定,在参数设置中,随着果汁奖励从一个试验块变化到另一个试验块,控制眼球运动的每个顶叶神经元的射击率可以被训练来编码每种可能运动对猴子的期望效用相对于替代运动的期望效用。因此,“价值为 0.4 毫升果汁的运动在神经射击概率中的表示要比价值为 0.2 毫升果汁的运动强两倍”(第 314 页)。毫不奇怪,当每次运动的果汁奖励从一个试验块变化到另一个试验块时,射击率也会变化。

在这种背景下,Glimcher 和他的同事们研究了猴子大脑如何实施 NE 的跟踪。当猴子们与计算机进行检验游戏时,与逃避相关的目标可以根据先前的训练设置在特定神经元的最佳位置,而工作目标将出现在一个空位置。这使得 Glimcher 能够测试以下问题的答案:在游戏中,猴子是否通过保持神经元的发射速率恒定,而整体猴子的实际和最佳行为变化了来保持 NE?数据明确地给出了“是”的答案。Glimcher 合理地解释这些数据,表明至少在这个任务的皮层区域中,神经发射速率在参数和非参数设置中都对预期效用进行编码。在这里,我们明显地证实了古典博弈论在与制度或社会惯例无关的情境中的经验适用性。

进一步的分析加深了这一假设。扮演检验员角色的计算机接收了与前一天猴子对手所接收到的相同结果序列,并且对于每一步行动,计算机被要求评估在下一步可用的逃避和工作行动的相对预期价值。Glimcher 报告了在个体神经元稳定的 NE 发射速率周围的小波动与计算机试图跟踪相同 NE 的预期值之间的正相关性。Glimcher 对这一发现的评论如下:

神经元似乎在逐步反映出一种与我们的计算机执行的计算非常接近的计算……在一个相对微观的尺度上,我们能够使用博弈论开始描述 LIP 区域的神经元执行的逐步决策计算。(Glimcher 2003, p. 317)

因此,我们发现博弈论超越了其传统角色,不再仅仅是一种技术,用于对进化动力学或在机构束缚下由消息灵通的代理人进行行为的高层约束进行框架化。在 Glimcher 的研究中,它被用来直接对猴子的大脑活动进行建模。Ross(2005a)认为,因此建模的神经元群体不应该被视为 Ainslie 关于个人内部交易理论中发现的次个人游戏单位;这将涉及一种直接的简化,而行为和生命科学的经验告诉我们不应该期望这种简化。这个问题在神经经济学家之间的直接争议中已经出现,他们对 fMRI 观察到的跨时间选择和贴现的竞争解释存在分歧(McClure 等人 2004 年,Glimcher 等人 2007 年)。到目前为止,证据的重量更有利于这样一种观点:如果有时将人们的选择分析为次个人代理人之间的博弈均衡是有用的,那么所涉及的次个人代理人不应该被视为独立的脑区域。不幸的是,相反的解释在较少专业化的文献中仍然最为普遍。

我们现在已经看到神经经济学应用博弈论的第一个层面。第二个层面涉及寻找神经活动中的条件变量,这些条件变量可能会影响人们在玩游戏时选择策略。这通常涉及使用处于 fMRI 扫描仪中的研究对象重复行为博弈理论文献中的协议。Harrison (2008) 和 Ross (2008b) 认为对这类工作的价值持怀疑态度,因为在将观察到的行为与特定的假定神经反应相关联时需要进行各种令人不适的大推断。还可以质疑是否能够获得许多可推广的新知识,因为只要这种关联能够成功地被识别出来,就可以获得这种知识。

让我们举一个“扫描仪中的博弈”的例子,直接涉及战略互动。King-Casas 等人 (2005) 使用了行为博弈理论中的标准协议,所谓的“信任”游戏,并在使用了一种称为“超扫描”的技术联接他们各自大脑的功能图的受试者中实施了这个协议。这个游戏涉及两名玩家。在 King-Casas 等人的实验中,该程序以重复的形式运行,第一名玩家被指定为“投资者”,第二名玩家被指定为“受托人”。投资者从 20 美元开始,她可以选择留下任意部分并将其余部分投资给受托人。受托人手中的投资金额由实验者翻了三倍。然后,受托人可以根据自己的意愿将这笔利润的多少或少数返还给投资者。该程序运行十轮,玩家的身份对彼此保持匿名。

这个游戏有无限数量的纳什均衡。行为经济学的先前数据与这样一种说法一致,即人类游戏中的模态纳什均衡近似于使用“以牙还牙”策略的两个玩家(见第 4 节),偶尔会进行叛变以探索信息,并且在叛变后会表现出一定程度的合作(有限的)以容忍这种探索。这是一个非常微弱的结果,因为它与关于究竟使用和维持了哪些变体的“以牙还牙”策略的广泛假设一致,因此不允许对在不同学习条件、制度或跨文化转移下的潜在动态做出推断。

当他们在超扫描下运行这个游戏时,研究人员解释他们的观察如下。受托人的尾状核中的神经元(一般被认为实施中脑多巴胺系统的计算或输出)被认为在投资者慷慨地回报信任时表现出强烈的反应——也就是说,在面对叛变时,回报变得更加慷慨。随着游戏的进行,这些反应被认为已经从被动变为主动。因此,被大脑直接构建的声誉形象,正如古典博弈论模型所预测的那样,被推断出来。理论建模本身无法预测的研究结果的另一个方面,以及纯行为观察无法区分的方面,被认为是尾状核神经元对恶意回报——也就是对合作减少慷慨——的反应幅度显著较小。据推测,这是大脑实施修改“以牙还牙”策略的机制,以防止偶尔的叛变对信息探索永久地破坏合作。

从这种神经经济学的实践者所期望的理解进展中,不在于它告诉我们有关特定类型的游戏的信息,而在于它促进了我们对情境框架如何影响人们对他们正在玩的游戏的推测的比较推理。据推测,fMRI 或其他类型的工作大脑探针可能使我们能够定量估计战略惊讶的程度。关于惊讶的相互作用性期望本身可能受到战略操纵的影响,但这是一个几乎没有被博弈论学家在理论上探讨的想法(见 Ross and Dumouchel 2004)。一些神经经济学家认为,我们现在有望在实证测试这些新理论,而不仅仅是在假设性地对其进行建模,这一观点刺激了这一研究领域的增长。

8.3 博弈论对人类本性的模型

在前一节中审视的发展将我们带到了古典博弈论实验/行为应用的前沿。我们现在可以回到几段前留下的分支点,这里这一研究流派与来自进化博弈论的研究相遇。毫无疑问,与其他非社会性动物(包括我们的近亲黑猩猩和倭黑猩猩)相比,人类在协调方面取得了巨大的成就(见第 4 节)(Tomasello 等人,2004)。有一场激烈的争论,对于重要的哲学含义,双方都以博弈论论证为基础,争论了一段时间,争论的焦点是这种能力是否完全可以通过文化适应来解释,还是更好地通过对早期智人的基因变化的推断来解释。

Henrich 等人(2004 年,2005 年)对来自南美洲、非洲和亚洲的十五个小规模人类社会进行了一系列实验游戏,包括三组狩猎者、六组刀耕火种的园艺者、四组游牧牧民和两组小规模农民。他们实施的游戏(最后通牒、独裁者、公共产品)都将受试者置于与前一节讨论的信任博弈情境大致相似的情况中。也就是说,最后通牒和公共产品游戏是这样的情景:只有当至少有些玩家使用非子博弈完美均衡策略时,社会福利和每个个体的福利才能得到优化(实现帕累托效率)(见第 2.6 节)。在独裁者游戏中,一个狭隘自私的先行者将获得所有可获利润。因此,在这三种游戏类型中,只关心自己的货币福利的 SPE 玩家将得到涉及高度不平等的回报的结果。Henrich 等人研究的社会中(或者任何其他进行这类游戏的社会中)都没有观察到这样的结果。如果他们和他们的伙伴玩 SPE,那些角色会拿走除了 epsilon 之外的所有货币利润的玩家总是给予伙伴远远多于 epsilon 的利润,即使在这种情况下,伙伴有时也会拒绝这样的提议,而不拿钱。此外,与实验经济学的传统受试者——工业化国家的大学生不同——Henrich 等人的受试者甚至在货币回报方面也没有采用纳什均衡策略。(也就是说,在战略上具有优势的玩家向在货币回报方面处于劣势的玩家提供了比达成协议所需更大的利润分成。)Henrich 等人通过建议所有实际的人,不像‘理性经济人’,在某种程度上都重视平等的结果来解释这些结果。然而,他们的实验也表明,这种程度在文化上存在显著差异,并且与两个特定文化变量的变化相关联:合作的典型回报(社会经济生活在多大程度上依赖与非直系亲属的合作)和整体市场整合(由独立测量的社会复杂度、匿名性、隐私和定居规模构建而成的概念)。随着这两个变量的值的增加,游戏行为(微弱地)朝着纳什均衡玩法的方向转变。因此,研究人员得出结论,人们天生具有对平等主义的偏好,但这些偏好的相对权重可以通过受当地文化线索调节的社会学习过程进行编程。

在评估 Henrich 等人对这些数据的解释时,我们首先应该注意到,RPT 的公理或第 8.1 节中提到的各种决策模型,这些模型与博弈论建模一起应用于人类选择数据,都没有规定或蕴含狭义自私的属性。(见 Ross(2005a)第 4 章;Binmore(2005b)和(2009);以及任何经济学或博弈论文本,让数学自说自话。)因此,正统博弈论并不预测人们会采取通过将自己的货币回报视为效用等价来推导出的 SPE 或 NE 策略。因此,Binmore(2005b)在批评 Henrich 等人暗示他们的实证工作使正统理论感到尴尬时是正当的。

这并不是在暗示人类学对实证结果的解释应该被视为不具争议。Binmore(1994,1998,2005a,2005b)多年来一直在基于广泛的行为数据进行论证,认为当人们与非亲属玩游戏时,他们倾向于学会根据大致对应于收入函数的效用函数来玩纳什均衡。正如他在 Binmore(2005b)中指出的那样,Henrich 等人的数据并没有针对他们的小规模社会测试这一假设,因为他们的受试者在测试游戏中并没有接受(在庭审游戏的情况下相当长的)学习期,而理论和计算模型表明人们需要收敛到 NE。当人们玩陌生的游戏时,他们倾向于通过参照他们在日常经验中习惯的游戏来对其进行建模。特别是,他们倾向于将一次性实验室游戏视为熟悉的重复游戏,因为一次性游戏在特殊的制度背景之外的正常社会生活中很少见。Henrich 等人所做的许多解释性评论与关于他们的受试者的这一假设是一致的,尽管他们明确地拒绝了这一假设本身。这里有争议的问题——围绕“正统”理论的问题——不仅仅是关于这个实验中特定受试者在做什么,而是关于他们的行为应该让我们推断出关于人类进化的什么。

Gintis (2004), (2009a) 认为,我们一直在讨论的数据支持以下关于人类进化的猜想。我们的祖先是个体适应性的最大化者。在进化过程中,这些祖先在某个时刻处于这样的环境中,足够多的他们通过行为来优化其个体适应性,从而优化了其群体的福祉(Sober and Wilson 1998),导致了物种的基因改变:我们不仅发展了对自己个体福祉的偏好,还发展了对社区所有成员的相对福祉的偏好,这些偏好由文化学习在每个个体中可编程的社会规范来索引。因此,将博弈论应用于模拟社会情境的当代研究者被建议通过(i)了解他们是哪个社区(或哪些社区)的成员,然后(ii)通过研究每个相关社区的代表在一系列游戏中推断编程到该社区(社区)成员中的效用函数。由于这里效用函数是因变量,游戏必须是独立确定的。Gintis 认为,我们通常可以通过(a)相信人们更倾向于平等的结果,其他条件相等的情况下,而不是不平等的结果,来至少保持相关游戏的战略形式固定,这是在他们认为自己属于的文化进化的“内部群体”中的,并且(b)要求游戏均衡来自文化历史动态的合理进化博弈理论模型中的稳定吸引子。

要求(b)作为对一般人类战略倾向的博弈论建模的约束,不再非常有争议,或者至少不比进化人类学中的一般适应主义更有争议。然而,许多评论家对 Gintis 的建议表示怀疑,即在人类社会性的进化过程中存在基因上的不连续性。(有认知进化人类学明确否认这种不连续性的,参见 Sterelny 2003。)基于这种怀疑(但更直接地基于行为数据),Binmore(2005a,2005b)反对将人们建模为具有对平等主义的内在偏好。根据 Binmore 的模型(1994, 1998, 2005a),非真社会性动物面临的基本战略问题类别是协调博弈。人类社区演化出文化规范来选择这些博弈的均衡状态,并且在一些(但不是所有)博弈中,这些均衡状态将与高水平的表面上利他行为相容。Binmore 认为,人们调整他们对公平的概念,以适应他们当地盛行的均衡选择规则。然而,他坚持认为这些规范的动态发展必须与自我关注的个体之间的讨价还价均衡在长期内是相容的。事实上,他认为,随着社会演化出鼓励 Henrich 等人所称的总体市场整合(上文讨论过),他们的效用函数和社会规范往往趋于与福祉相关的自我关注的经济理性一致。这并不意味着 Binmore 对平等主义的前景持悲观态度:他开发了一个模型,表明广泛以自我利益为导向的讨价还价者社会可以自然地沿着动态稳定的均衡路径朝着符合 Rawlsian 正义的分配规范的规范发展(Rawls 1971)。根据 Binmore 的观点,这种演化的主要障碍恰恰是保守派所推崇的其他关注偏好,这种偏好阻碍了对社会均衡路径上更具有平等倾向的讨价还价均衡的研究。

幸运的是,Gintis 和 Binmore 之间的这场辩论的解决并不需要等待我们可能永远也不会得到的有关人类深层进化历史的发现。这些模型对一些可检验现象做出了竞争性的经验预测。如果 Gintis 是对的,那么由于古人类进化的不连续性所施加的限制,人们学会自我关注的程度是有限的。这是上述有关 Henrich 等人对其领域数据解释的争议的主要意义。与 Gintis 不同,Binmore 的社会均衡选择模型还取决于人们普遍倾向于对社会中未能制裁违反社会规范者进行二级惩罚。Gintis (2005)使用博弈论模型表明,如果惩罚成本是显著的,这是不可信的。然而,Ross (2008a)认为文献中普遍假设违反规范的惩罚必须是有成本的结果是由于未能充分区分社会性原始进化模型与一旦这些模型的初始集固定下来后规范和制度的维护和发展模型之间的区别。最后,Ross 还指出,Binmore 的目标既是规范性的,也是描述性的:他旨在向平等主义者展示如何诊断保守派对现状的合理化的错误,而不呼吁将使均衡路径稳定性(因此也是社会福利)处于风险之中的革命。在制定改革建议时,一个合理的原则是它们应该是“无赖证明的”(正如休谟所说),也就是说,应该与人们可能存在的更少的利他主义是兼容的。

9. Looking Ahead: Areas of Current Innovation

2016 年,《经济展望杂志》发表了一篇关于“博弈论中发生了什么事情?”的专题讨论。每位参与者都独立指出,博弈论已经与一般微观经济理论紧密交织在一起,以至于很难将这个问题与整个子学科的前沿探索区分开来,而这个子学科又是整个经济学的最大部分。因此,博弈论的哲学边界和微观经济学的哲学边界现在同样模糊不清。当然,正如强调过的那样,博弈论的应用已经超越了传统的经济学领域,扩展到了所有的行为和社会科学领域。但随着博弈论的方法与微观经济学的方法融合,评论家可能同样将这些扩展视为微观经济学的外部应用。

经过几十年的发展(在本文中并未完全调查),过去几年相对较为平静,特别是涉及邀请哲学家做出贡献的基础创新方面。然而,一些原始基础的部分正在重新被审视。

冯·诺伊曼和莫根斯特恩(1944)引入博弈论将研究分为两部分。非合作博弈论分析了建立在每个玩家最大化自己效用函数的假设基础上,同时将其他玩家的预期战略反应视为约束的情况。正如上文所讨论的,冯·诺伊曼和莫根斯特恩应用他们的建模的具体游戏是扑克,这是一个零和游戏。本文的大部分内容都集中在从零和领域扩展非合作博弈论所产生的许多理论挑战和见解上。但事实上,这只是冯·诺伊曼和莫根斯特恩经典的一半。另一半是合作博弈论,至今在这里还没有提到。之所以保持沉默的原因是,对于大多数博弈论学家来说,合作博弈论充其量是一种分散注意力的东西,最坏的情况是一种绕过博弈论的技术,混淆了博弈论的重点,即通过绕过使得博弈在应用中可能变得有趣和富有洞察力的方面,即纳什(1950a)所施加的限制来内生地选择均衡的要求。毕竟,这正是使均衡自我强化的原因,就像竞争市场上的价格一样,因此使它们稳定,除非受到外部冲击。纳什(1953)认为,合作博弈的解决方案应始终通过展示它们也是形式上等价的非合作博弈的解决方案来验证。解决这个问题的一种解释方式是证明了合作博弈论的最终多余性。

合作博弈论从这样一个假设开始,即玩家们已经通过某种未指明的过程就一组策略达成了一致,从而确定了一个结果。然后分析者运用该理论来确定协议保持稳定的最小条件集。这个想法通常以议会联盟的例子来说明。假设有一个主导党派,如果要在立法和信任投票中获得多数,它必须是任何联盟的成员。如果要维持它,可能会有一系列其他可能的其他党派的组合。想象一下,为了使这个例子更有结构和趣味,有些党派不会加入包括特定其他党派的联盟;因此,联盟组织者面临的问题不仅仅是对潜在选票的总和。合作博弈论者确定可能的联盟集合。除了主导党派之外,可能还有一些其他党派,在每个可能的联盟中都是必需的。在这个例子中,确定这些党派将揭示游戏的核心,即所有均衡所共有的元素。核心是合作博弈论的关键解决概念,为此沙普利获得了诺贝尔奖(沙普利(1953)是一篇伟大的论文)。纳什(1953)将“纳什方案”定义为通过展示非合作玩家可以通过纳什(1950b)规定的顺序谈判过程达到特定的合作均衡,并且所有这样的谈判结果都包括核心。

鉴于这个例子,政治科学家在非合作博弈论仍在充分发展的年代是合作理论的主要使用者,这一点并不奇怪。它也被劳工经济学家应用得很有用,他们研究公司和工会之间的解决谈判,同时也被国际贸易谈判的分析者所应用。我们可以通过第二个例子来说明这种应用的价值。假设鉴于南非国内游说团体的影响力,南非政府永远不会同意任何不允许其保护汽车装配行业的贸易协议。(事实上迄今为止确实如此。)因此,考虑到这种保护是任何其他国家或地区与南非达成的任何贸易条约的核心部分。了解这一点可以帮助谈判各方避免空洞的言辞或对其他游说团体的承诺,这些承诺可能使核心部分无法实现,从而导致谈判失败。这个例子也帮助我们说明合作博弈论的局限性。南非将不得不权衡其他游说团体的利益以保护其汽车工业。哪些其他利益将被牺牲将取决于非合作顺序提议和反提议的广泛形式的演绎,以及南非谈判者如果他们做了尽职调查,必须注意哪些路径会使特定的国内利益受到影响。因此,进行合作分析并不能使他们摆脱进行非合作分析的需要。他们的博弈论顾问可能会直接将非合作参数编码到他们的 Gambit 软件中,如果有需要,软件将输出核心。

但是合作博弈论并没有消失,也没有局限于政治科学的应用。事实证明,存在一系列涉及许多参与者的政策问题,这些参与者的属性各不相同,但其序数效用函数是对称的,对于这些问题,非合作建模在原则上是可能的,但却过于繁琐和计算上要求过多,而合作建模则非常合适。我们处理序数效用函数是重要的,因为在相关市场上通常没有价格。经典的例子(Gale and Shapley 1962)是婚姻市场。抽象出个别浪漫戏剧和喜剧的规模,社会上有一大批人,他们想要成对出现,但非常在意最终与谁成对。假设我们有一组这样的人。想象一下,媒人或应用程序首先将这组人分成两个适当的子集,并宣布一个规则,即 A 子集中的每个人都会向 B 子集中的某人求婚。B 子集中收到求婚的人都知道她是 A 子集中某人的第一选择。她从收到的求婚中选择她的第一选择,并将其余的重新放回池中。那些 A 子集中最初的求婚未被接受的人现在每个人都向他们以前没有求婚的人求婚,但可能包括那些持有上一轮求婚的人,Nkosi 知道 Barbara 在第 1 轮更喜欢 Amalia,但 Nkosi 不在那个选择集中,因此可能会在第 2 轮中取代 Amalia)。可以证明,在经过一定轮数后将存在一个终止轮,之后将不会再有进一步的求婚,而媒人应用程序将找到合作博弈的核心,因为 B 集合中的任何人 i 都不愿意与 A 集合中的某人配对,而 A 集合中的某人更喜欢 i 胜过那个 A 集合中的梦中情人的求婚者。B 集合中的每个人现在都会接受他们持有的求婚,如果两个集合的基数相同,并且每个人宁愿与某人配对而不愿意单独行动,那么没有人会孤独地离开。

这不是一个直接适用于婚姻市场的模型,因此在出售上述简单的婚配应用程序中并没有赚钱的可能。问题在于,我们无法保证在这个例子中,Nkosi 和 Amalia 不是对方的命定伴侣,但由于他们都开始于集合 A,却无法配对。在博弈论教科书中,通常通过假设 A 集合包含男性,B 集合包含女性,并且每个人都如此坚定地支持异性恋,以至于他们宁愿与异性配对,也不愿与同性配对来回避这个问题。另一方面,这个模型提供了一些见解,就像模型通常所做的那样,只要我们不坚持过于字面的应用。在研究完之后,人们会看到关于社会的逻辑事实,这些事实是任何设计真实婚配应用程序的人最好了解的:该应用程序将不得不记录正在考虑但尚未被接受的提议,让人们持有正在考虑的提议进入市场,并记住谁曾经拒绝过谁(而不会通过公开发布这些信息来造成普遍的情感灾难)。除非市场中的人数较少、受限制,并且通过提供“X 类型的人寻找 Y 类型的人”等信息而在一定程度上自我分类成子集,否则真实的应用程序将无法可靠地找到合作博弈的核心(至少作为一种近似)。但是真实的婚配应用程序似乎运行得足够好,以至于它们正在改变大多数年轻人在具有普遍互联网接入的国家中寻找伴侣的方式。理论上理想化和真实婚姻市场之间的关系在 Chiappori(2017)中得到了全面的审查。

合作博弈论的复兴引起了人们的浓厚兴趣,因为遇到了政策问题,这些问题与最初使用全直男婚姻市场的玩具示例不同,满足了模型的关键假设。主要例子包括匹配大学申请者和大学,以及匹配需要器官移植的人与捐赠者(参见 Roth 2015)。在这些市场中,对要匹配的集合的划分并不含糊。顺序偏好是相关的:大学不会将名额拍卖给出价最高的人(或者至少一般情况下不会),器官也不出售(或者至少不合法)。这些模型确实被应用,并且它们显然提高了效率并挽救了生命。

在科学中,常见的情况是,实际上笨拙地适应其原始问题的模型,竟然能够为技术变革带来的新问题提供高效的解决方案。互联网为匹配算法的应用创造了一个环境——旅行者和租房者、餐厅和食客、学生和导师,以及(遗憾的是)社会上疏远的人和宣传和狂热主义的传播者——这些应用可以由自 Shapley 最初的创新以来的任何时候的理论家设计,但以前实际上几乎不可能实现。这些合作博弈论的应用通常与拍卖的非合作博弈论(Klemperer 2004)一起应用,以推动商品和服务的市场设计,其效率之高甚至能够摧毁甚至是美国郊区的一度强大的购物中心。为什么酒店比 2007 年前的所有城市中除了最大的城市之外更具盈利性和更容易获得呢?答案是动态定价算法(Gershkov and Moldovanu 2014)将匹配理论和拍卖理论相结合,使酒店能够与在线旅行服务聚合商一起找到愿意支付溢价价格以获取他们理想位置和时间的客户,然后用那些偏好更加灵活的物美价廉的顾客填满剩余的房间。航空公司也在使用类似的技术。因此,博弈论继续是 20 世纪发明之一,推动着 21 世纪的社会革命,Samuelson(2016)预测了对合作博弈的更深层数学以及它们与非合作博弈的关系的重新兴趣的即将到来的激增。

一系列进一步的经典和进化博弈论的应用已经被开发出来,但我们希望现在已经提供了足够的内容,以说服读者这种分析工具的巨大且不断扩展的实用性。读者如果对更多内容感兴趣,应该会发现她现在已经足够掌握基本知识,能够阅读大量文献,其中一些重点如下所列。

Bibliography

Annotations on General Sources

In the following section, books and articles which no one seriously interested in game theory can afford to miss are marked with (**).

The most accessible textbook that covers all of the main branches of game theory is Dixit, Skeath and Reiley (2014). A student entirely new to the field should work through this before moving on to anything else.

Game theory has countless applications, of which this article has been able to suggest only a few. Readers in search of more, but not wishing to immerse themselves in mathematics, can find a number of good sources. Dixit and Nalebuff (1991) and (2008) are especially strong on political and social examples. McMillan (1991) emphasizes business applications.

The great historical breakthrough that officially launched game theory is von Neumann and Morgenstern (1944), which those with scholarly interest in game theory should read with classic papers of John Nash (1950a, 1950b, 1951). A very useful collection of key foundational papers, all classics, is Kuhn (1997). For a contemporary mathematical treatment that is unusually philosophically sophisticated, Binmore (2005c) () is in a class by itself. The second half of Kreps (1990) () is the best available starting point for a tour of the philosophical worries surrounding equilibrium selection for normativists. Koons (1992) takes these issues further. Fudenberg and Tirole (1991) remains the most thorough and complete mathematical text available. Gintis (2009b) (__) provides a text crammed with terrific problem exercises, which is also unique in that it treats evolutionary game theory as providing the foundational basis for game theory in general. Recent developments in fundamental theory are well represented in Binmore, Kirman and Tani (1993). Anyone who wants to apply game theory to real human choices, which are generally related stochastically rather than deterministically to axioms of optimization, needs to understand quantal response theory (QRE) as a solution concept. The original development of this is found in McKelvey and Palfrey (1995) and McKelvey and Palfrey (1998). Goeree, Holt, and Palfrey (2016) provide a comprehensive and up-to-date review of QRE and its leading applications.

The philosophical foundations of the basic game-theoretic concepts as economists understand them are presented in LaCasse and Ross (1994). Ross and LaCasse (1995) outline the relationships between games and the axiomatic assumptions of microeconomics and macroeconomics. Philosophical puzzles at this foundational level are critically discussed in Bicchieri (1993). Lewis (1969) puts game-theoretic equilibrium concepts to wider application in philosophy, though making some foundational assumptions that economists generally do not share. His program is carried a good deal further, and without the contested assumptions, by Skyrms (1996) () and (2004). (See also Nozick [1998].) Gauthier (1986) launches a literature not surveyed in this article, in which the possibility of game-theoretic foundations for contractarian ethics is investigated. This work is critically surveyed in Vallentyne (1991), and extended into a dynamic setting in Danielson (1992). Binmore (1994, 1998) (), however, sharply criticizes this project as inconsistent with natural psychology. Philosophers will also find Hollis (1998) to be of interest.

In a class by themselves for insight, originality, readability and cross-disciplinary importance are the works of the Nobel laureate Thomas Schelling. He is the fountainhead of the huge literature that applies game theory to social and political issues of immediate relevance, and shows how lightly it is possible to wear one’s mathematics if the logic is sufficiently sure-footed. There are four volumes, all essential: Schelling (1960) (), Schelling (1978 / 2006) (), Schelling (1984) (), Schelling (2006) ().

Hardin (1995) is one of many examples of the application of game theory to problems in applied political theory. Baird, Gertner and Picker (1994) review uses of game theory in legal theory and jurisprudence. Mueller (1997) surveys applications in public choice. Ghemawat (1997) provides case studies intended to serve as a methodological template for practical application of game theory to business strategy problems. Poundstone (1992) provides a lively history of the Prisoner’s Dilemma and its use by Cold War strategists. Amadae (2016) tells the same story, based on original scholarly sleuthing, with less complacency concerning its implications. The memoir of Ellsberg (2017) largely confirms Amadae’s perspective. Durlauf and Young (2001) is a useful collection on applications to social structures and social change.

Evolutionary game theory owes its explicit genesis to Maynard Smith (1982) (). For a text that integrates game theory directly with biology, see Hofbauer and Sigmund (1998) (). Sigmund (1993) presents this material in a less technical and more accessible format. Some exciting applications of evolutionary game theory to a range of philosophical issues, on which this article has drawn heavily, is Skyrms (1996) (). These issues and others are critically discussed from various angles in Danielson (1998). Mathematical foundations for evolutionary games are presented in Weibull (1995), and pursued further in Samuelson (1997). These foundations are examined with special attention to issues for philosophers by Alexander (2023). As noted above, Gintis (2009b) () now provides an introductory textbook that takes evolutionary modeling to be foundational to all of game theory. H.P. Young (1998) gives sophisticated models of the evolutionary dynamics of cultural norms through the game-theoretic interactions of agents with limited cognitive capacities but dispositions to imitate one another. Fudenberg and Levine (1998) gives the technical foundations for modeling of this kind.

Many philosophers will also be interested in Binmore (1994 1998, 2005a) (), which shows that application of game-theoretic analysis can underwrite a Rawlsian conception of justice that does not require recourse to Kantian presuppositions about what rational agents would desire behind a veil of ignorance concerning their identities and social roles. (In addition, Binmore offers excursions into a range of other issues both central and peripheral to both the foundations and the frontiers of game theory; these books are particularly rich on problems that interest philosophers.) Almost everyone will be interested in Frank (1988) (), where evolutionary game theory is used to illuminate basic features of human nature and emotion; though readers of this can find criticism of Frank’s model in Ross and Dumouchel (2004). O’Connor (2019) uses evolutionary game theory to understand the deep roots and persistence of human inequality, particularly between the sexes. Her book is an exemplary instance of the essential value of game theory to core questions in general social science and social philosophy.

Behavioral and experimental applications of game theory are surveyed in Kagel and Roth (1995). Camerer (2003) (__) is a comprehensive and more recent study of this literature, and cannot be missed by anyone interested in these issues. A shorter survey that emphasizes philosophical and methodological criticism is Samuelson (2005). Philosophical foundations are also carefully examined in Guala (2005).

Two volumes from leading theorists that offer comprehensive views on the philosophical foundations of game theory were published in 2009. These are Binmore (2009) () and Gintis (2009a) (). Both are indispensable to philosophers who aim to participate in critical discussions of foundational issues.

A volume of interviews with nineteen leading game theorists, eliciting their views on motivations and foundational topics, is Hendricks and Hansen (2007).

Game-theoretic dynamics of the sub-person receive deep but accessible reflection in Ainslie (2001). Seminal texts in neuroeconomics, with extensive use of and implications for behavioral game theory, are Montague and Berns (2002), Glimcher 2003 (__), and Camerer, Loewenstein and Prelec (2005). Ross (2005a) studies the game-theoretic foundations of microeconomics in general, but especially behavioral economics and neuroeconomics, from the perspective of cognitive science and in close alignment with Ainslie.

The theory of cooperative games is consolidated in Chakravarty, Mitra and Sarkar (2015). An accessible and non-technical review of applications of matching theory, by the economist whose work on it earned a Nobel Prize, is Roth (2015).

References

  • Ainslie, G. (1992). Picoeconomics, Cambridge: Cambridge University Press.

  • ––– (2001). Breakdown of Will, Cambridge: Cambridge University Press.

  • Alexander, J.M. (2023). Evolutionary Game Theory, Cambridge: Cambridge University Press.

  • Amadae, S. (2016). Prisoners of Reason, Cambridge: Cambridge University Press.

  • Andersen, S., Harrison, G., Lau, M., and Rutstrom, E. (2008). Eliciting risk and time preferences. Econometrica, 76: 583–618.

  • ––– (2014). Dual criteria decisions. Journal of Economic Psychology, forthcoming.

  • Aumann, R. (1974). Subjectivity and Correlation in Randomized Strategies. Journal of Mathematical Economics, 1: 67–96.

  • ––– (1987). Correlated Equilibrium as an Expression of Bayesian Rationality. Econometrica, 55: 1–18.

  • Bacharach, M. (2006). Beyond Individual Choice: Teams and Frames in Game Theory, Princeton: Princeton University Press.

  • Baird, D., Gertner, R., and Picker, R. (1994). Game Theory and the Law, Cambridge, MA: Harvard University Press.

  • Bell, W., (1991). Searching Behaviour, London: Chapman and Hall.

  • Bicchieri, C. (1993). Rationality and Coordination, Cambridge: Cambridge University Press.

  • ––– (2006). The Grammar of Society, Cambridge: Cambridge University Press.

  • ––– (2017). Norms in the Wild. Oxford: Oxford University Press.

  • Bickhard, M. (2008). Social Ontology as Convention. Topoi, 27: 139–149.

  • Binmore, K. (1987). Modeling Rational Players I. Economics and Philosophy, 3: 179–214.

  • ––– (1994). Game Theory and the Social Contract (v. 1): Playing Fair, Cambridge, MA: MIT Press.

  • ––– (1998). Game Theory and the Social Contract (v. 2): Just Playing, Cambridge, MA: MIT Press.

  • ––– (2005a). Natural Justice, Oxford: Oxford University Press.

  • ––– (2005b). Economic Man—or Straw Man? Behavioral and Brain Sciences 28: 817–818.

  • ––– (2005c). Playing For Real, Oxford: Oxford University Press.

  • ––– (2007). Does Game Theory Work? The Bargaining Challenge, Cambridge, MA: MIT Press.

  • ––– (2008). Do Conventions Need to be Common Knowledge? Topoi 27: 17–27.

  • ––– (2009). Rational Decisions, Princeton: Princeton University Press.

  • Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers of Game Theory, Cambridge, MA: MIT Press

  • Binmore, K., and Klemperer, P. (2002). The Biggest Auction Ever: The Sale of British 3G Telcom Licenses. Economic Journal, 112: C74–C96.

  • Bishop, B.(2009). The Big Sort. New York: Mariner.

  • Boyd, R., and Richerson, P. (1985). Culture and the Evolutionary Process, Chicago: University of Chicago Press.

  • Camerer, C. (1995). Individual Decision Making. In J. Kagel and A. Roth, eds., Handbook of Experimental Economics, 587–703. Princeton: Princeton University Press.

  • ––– (2003). Behavioral Game Theory: Experiments in Strategic Interaction, Princeton: Princeton University Press.

  • Camerer, C., Loewenstein, G., and Prelec, D. (2005). Neuroeconomics: How Neuroscience Can Inform Economics. Journal of Economic Literature, 40: 9–64.

  • Chakravarty, S., Mitra, M., and Sarkar, P. (2015). A Course on Cooperative Game Theory, Cambridge: Cambridge University Press.

  • Chew, S., and MacCrimmon, K. (1979). Alpha-nu Choice Theory: A Generalization of Expected Utility Theory. Working Paper No. 686, University of Columbia Faculty of Commerce and Business Administration.

  • Chiappori, P.-A. (2017). Matching With Transfers: The Economics of Love and Marriage, Princeton: Princeton University Press.

  • Clark, A. (1997). Being There, Cambridge, MA: MIT Press.

  • ––– (2016). Surfing Uncertainty, Cambridge, MA: MIT Press.

  • Danielson, P. (1992). Artificial Morality, London: Routledge

  • ––– (ed.) (1998). Modelling Rationality, Morality and Evolution, Oxford: Oxford University Press.

  • Dennett, D. (1987). The Intentional Stance, Cambridge, MA: MIT Press.

  • ––– (1995). Darwin’s Dangerous Idea, New York: Simon and Schuster.

  • Dixit, A., and Nalebuff, B. (1991). Thinking Strategically, New York: Norton.

  • ––– (2008). The Art of Strategy, New York: Norton.

  • Dixit, A., Skeath, S., and Reiley, D. (2014). Games of Strategy, fourth edition. New York: W. W. Norton and Company.

  • Dugatkin, L., and Reeve, H., eds. (1998). Game Theory and Animal Behavior, Oxford: Oxford University Press.

  • Dukas, R., ed. (1998). Cognitive Ecology., Chicago: University of Chicago Press.

  • Durlauf, S., and Young, H.P., eds. (2001). Social Dynamics, Cambridge, MA: MIT Press.

  • Ellsberg, D. (2017). The Doomsday Machine, New York: Bloomsbury.

  • Erickson, P. (2015). The World the Game Theorists Made, Chicago: University of Chicago Press.

  • Frank, R. (1988). Passions Within Reason, New York: Norton.

  • Fudenberg, D., and Levine, D. (1998). The Theory of Learning in Games, Cambridge, MA: MIT Press.

  • ––– (2008). A Long-Run Collaboration on Long-Run Games. Singapore: World Scientific.

  • ––– (2016). Whither Game Theory? Towards a Theory of Learning in Games. Journal of Economic Perspectives, 30(4): 151–170

  • Fudenberg, D., and Tirole, J. (1991). Game Theory, Cambridge, MA: MIT Press.

  • Gale, D., and Shapley, L. (1962). College Admissions and the Stability of Marriage. American Mathematical Monthly, 69 :9–15.

  • Gauthier, D. (1986). Morals By Agreement, Oxford: Oxford University Press.

  • Gershkov, A., and Moldovanu, B. (2014). Dynamic Allocation and Pricing: A Mechanism Design Approach, Cambridge, MA: MIT Press.

  • Ghemawat, P. (1997). Games Businesses Play, Cambridge, MA: MIT Press.

  • Gilbert, M. (1989). On Social Facts, Princeton: Princeton University Press.

  • Gintis, G.(2004). Towards the Unity of the Human Behavioral Sciences. Philosophy, Politics and Economics, 31: 37–57.

  • ––– (2005). Behavioral Ethics Meets Natural Justice. Politics, Philosophy and Economics, 5: 5–32.

  • ––– (2009a). The Bounds of Reason, Princeton: Princeton University Press.

  • ––– (2009b). Game Theory Evolving. Second edition. Princeton: Princeton University Press.

  • Glimcher, P. (2003). Decisions, Uncertainty and the Brain, Cambridge, MA: MIT Press.

  • Glimcher, P., Kable, J., and Louie, K. (2007). Neuroeconomic Studies of Impulsivity: Now or Just as Soon as Possible? American Economic Review (Papers and Proceedings), 97: 142–147.

  • Godfrey-Smith, P. (1996). Complexity and the Function of Mind in Nature. Cambridge, UK: Cambridge University Press.

  • Goeree, J., Holt, C., and Palfrey, T. (2016). Quantal Response Equilibrium, Princeton: Princeton University Press.

  • Guala, F. (2005). The Methodology of Experimental Economics, Cambridge: Cambridge University Press.

  • ––– (2016). Understanding Institutions, Princeton: Princeton University Press.

  • Hammerstein, P. (2003). Why is Reciprocity so Rare in Social Animals? A Protestant Appeal. In P. Hammerstein, ed., Genetic and Cultural Evolution of Cooperation, 83–93. Cambridge, MA: MIT Press.

  • Hampton, J. (1986), Hobbes and the Social Contract Tradition. Cambridge: Cambridge University Press.

  • Hardin, R. (1995). One For All, Princeton: Princeton University Press.

  • Harrison, G.W. (2008). Neuroeconomics: A Critical Reconsideration. Economics and Philosophy 24: 303–344.

  • Harrison, G.W., and Rutstrom, E. (2008). Risk aversion in the laboratory. In Risk Aversion in Experiments, J. Cox and G. Harrison eds., Bingley, UK: Emerald, 41–196.

  • Harrison, G.W., and Ross, D. (2010). The Methodologies of Neuroeconomics. Journal of Economic Methodology, 17: 185–196.

  • ––– (2016). The Psychology of Human Risk Preferences and Vulnerability to Scare-mongers: Experimental Economic Tools for Hypothesis Formulation and Testing. Journal of Cognition and Culture, 16: 383–414.

  • ––– forthcoming. Behavioral Welfare Economics and the Quantitative Intentional Stance. In G.W. Harrison & D. Ross, eds., Models of Risk Preferences: Descriptive and Normative Challenges. Bingley, UK: Emerald.

  • Harsanyi, J. (1967). Games With Incomplete Information Played by ‘Bayesian’ Players, Parts I–III. Management Science 14: 159–182.

  • ––– (1977). Rational Behavior and Bargaining Equilibrium in Games and Social Situations, Cambridge: Cambridge University Press.

  • Henrich, J., Boyd, R., Bowles, S., Camerer, C., Fehr, E., and Gintis, H., eds. (2004). Foundations of Human Sociality: Economic Experiments and Ethnographic Evidence From 15 Small-Scale Societies, Oxford: Oxford University Press.

  • Henrich, J., Boyd, R., Bowles, S., Camerer, C., Fehr, E., Gintis, H., McElreath, R., Alvard, M., Barr, A., Ensminger, J., Henrich, N., Hill, K., Gil-White, F., Gurven, M., Marlowe, F., Patton, J., and Tracer, D. (2005). ‘Economic Man’ in Cross-Cultural Perspective. Behavioral and Brain Sciences, 28: 795–815.

  • Hendricks, V., and Hansen, P., eds. (2007). Game Theory: 5 Questions, Copenhagen: Automatic Press.

  • Hofbauer, J., and Sigmund, K. (1998). Evolutionary Games and Population Dynamics, Cambridge: Cambridge University Press.

  • Hofmeyr, A., and Ross, D. (2019). Team Agency and Conditional Games. In M. Nagatsu, ed., Philosophy and Social Science: An Interdisciplinary Dialogue, London: Bloomsbury, 67–92.

  • Hollis, M. (1998). Trust Within Reason, Cambridge: Cambridge University Press.

  • Hollis, M., and Sugden, R. (1993). Rationality in Action. Mind, 102: 1–35.

  • Hurwicz, L., and Reiter, S. (2006). Designing Economic Mechanisms, Cambridge: Cambridge University Press.

  • Hutto, D. (2008). Folk Psychological Narratives, Cambridge, MA: MIT Press.

  • Kagel, J., and Roth, A., eds. (1995). Handbook of Experimental Economics, Princeton: Princeton University Press.

  • Keeney, R., and Raiffa, H. (1976). Decisions With Multiple Objectives, New York: Wiley.

  • King-Casas, B., Tomlin, D., Anen, C., Camerer, C., Quartz, S., and Montague, P.R. (2005). Getting to Know You: Reputation and Trust in a Two-Person Economic Exchange. Science, 308: 78–83.

  • Klemperer, P. (2004). Auctions: Theory and Practice, Princeton: Princeton University Press.

  • Koons, R. (1992). Paradoxes of Belief and Strategic Rationality, Cambridge: Cambridge University Press.

  • Krebs, J., and Davies, N. (1984). Behavioral Ecology: An Evolutionary Approach, Second edition. Sunderland: Sinauer.

  • Kreps, D. (1990). A Course in Microeconomic Theory, Princeton: Princeton University Press.

  • Kruschke, J. (2014). Doing Bayesian Data Analysis, 2nd Edition. Cambridge, MA: Academic Press.

  • Kuhn, H., ed., (1997). Classics in Game Theory, Princeton: Princeton University Press.

  • Kuran, T. (1995). Private Truths, Public Lies. Cambridge, MA: Harvard University Press.

  • LaCasse, C., and Ross, D. (1994). ‘The Microeconomic Interpretation of Games’. PSA 1994, Volume 1, D. Hull, S. Forbes and R. Burien (eds.), East Lansing, MI: Philosophy of Science Association, pp. 479–387.

  • Ledyard, J. (1995). Public Goods: A Survey of Experimental Research. In J. Kagel and A. Roth, eds., Handbook of Experimental Economics, Princeton: Princeton University Press.

  • Lewis, D. (1969). Convention, Cambridge, MA: Harvard University Press.

  • Lichtenstein, S., and Slovic, P., eds. (2006). The Construction of Preference, Cambridge, UK: Cambridge University Press.

  • Maynard Smith, J. (1982). Evolution and the Theory of Games, Cambridge: Cambridge University Press.

  • McClure, S., Laibson, D., Loewenstein, G., and Cohen, J. (2004). Separate Neural Systems Value Immediate and Delayed Monetary Rewards. Science, 306: 503–507.

  • McElreath, R. (2020). Statistical Rethinking, 2nd Edition. London: Chapman & Hall.

  • McGeer, V. (2001). Psycho-practice, Psycho-theory, and the Contrastive Case of Autism: How Processes of Mind Become Second Nature, Journal of Consciousness Studies, 8: 109–132.

  • –––(2002). Enculturating Folk-Psychologists, Synthese, 199: 1039–1063.

  • McKelvey, R., and Palfrey, T. (1995). Quantal Response Equilibria for Normal Form Games. Games and Economic Behavior 10: 6–38.

  • ––– (1998). Quantal Response Equilibria for Extensive Form Games. Experimental Economics 1: 9–41.

  • McMillan, J. (1991). Games, Strategies and Managers, Oxford: Oxford University Press.

  • Millikan, R. (1984). Language, Thought and Other Biological Categories, Cambridge, MA: MIT Press.

  • Montague,P. R., and Berns, G. (2002). Neural Economics and the Biological Substrates of Valuation. Neuron, 36: 265–284.

  • Mueller, D. (1997). Perspectives on Public Choice, Cambridge: Cambridge University Press.

  • Nash, J. (1950a). ‘Equilibrium Points in n-Person Games.’ Proceedings of the National Academy of Science, 36: 48–49.

  • ––– (1950b). ‘The Bargaining Problem.’ Econometrica, 18: 155–162.

  • ––– (1951). ‘Non-cooperative Games.’ Annals of Mathematics Journal, 54: 286–295.

  • ––– (1953). Two-Person Cooperative Games. Econometrica, 21: 128–140.

  • Nichols, S., and Stich, S. (2003). Mindreading, Oxford: Oxford University Press.

  • Noe, R., van Hoof, J., and Hammerstein, P., eds. (2001). Economics in Nature, Cambridge: Cambridge University Press.

  • Nozick, R. (1998). Socratic Puzzles, Cambridge, MA: Harvard University Press.

  • O’Connor, C. (2019). The Origins of Unfairness, Oxford: Oxford University Press.

  • Ofek, H. (2001). Second Nature. Cambridge: Cambridge University Press.

  • Ormerod, P. (1994). The Death of Economics, New York: Wiley.

  • Parr, T., Pezzulo, G., & Friston, K. (2022). Active Inference. Cambridge, MA: MIT Press.

  • Pettit, P., and Sugden, R. (1989). The Backward Induction Paradox. Journal of Philosophy, 86: 169–182.

  • Planer, R., & Sterelny, K. (2021). From Signal to Symbol. Cambridge, MA: MIT Press.

  • Platt, M., and Glimcher, P. (1999). Neural Correlates of Decision Variables in Parietal Cortex. Nature, 400: 233–238.

  • Plott, C., and Smith, V. (1978). An Experimental Examination of Two Exchange Institutions. Review of Economic Studies, 45: 133–153.

  • Poundstone, W. (1992). Prisoner’s Dilemma, New York: Doubleday.

  • Prelec, D. (1998). The Probability Weighting Function. Econometrica, 66: 497–527.

  • Quiggin,J. (1982). A Theory of Anticipated Utility. Journal of Economic Behavior and Organization, 3: 323–343.

  • Rawls, J. (1971). A Theory of Justice, Cambridge, MA: Harvard University Press.

  • Robbins, L. (1931). An Essay on the Nature and Significance of Economic Science, London: Macmillan.

  • Ross, D. (2005a). Economic Theory and Cognitive Science: Microexplanation., Cambridge, MA: MIT Press.

  • ––– (2006). Evolutionary Game Theory and the Normative Theory of Institutional Design: Binmore and Behavioral Economics. Politics, Philosophy and Economics, 5(1): 51–79.

  • ––– (2008a). Classical Game Theory, Socialization and the Rationalization of Conventions. Topoi, 27: 57–72.

  • ––– (2008b). Two Styles of Neuroeconomics. Economics and Philosophy 24: 473–483.

  • ––– (2014). Philosophy of Economics, Houndmills, Basingstoke: Palgrave Macmillan.

  • Ross, D., and Dumouchel, P. (2004). Emotions as Strategic Signals. Rationality and Society, 16: 251–286.

  • Ross, D., and LaCasse, C. (1995). ‘Towards a New Philosophy of Positive Economics’. Dialogue, 34: 467–493.

  • Ross, D., and Stirling, W. (2021). Economics, Social Neuroscience, and Mindshaping. In J. Harbeckeand C. Herrmann-Pillath, eds., Social Neuroeconomics, London: Routledge, 174–201.

  • Ross, D., Stirling, W., and Tummolini, L. (2023). Strategic Theory of Norms for Empirical Applications in Political Science and Political Economy. In H. Kincaid and J. van Bouwel, eds., The Oxford Handbook of Philosophy of Political Science, Oxford: Oxford University Press, 86–121.

  • Roth, A. (2015). Who Gets What and Why?, New York: Houghton Mifflin Harcourt.

  • Sally, J. (1995). Conversation and Cooperation in Social Dilemmas: A Meta-analysis of Experiments From 1958 to 1992. Rationality and Society, 7: 58–92.

  • Samuelson, L. (1997). Evolutionary Games and Equilibrium Selection, Cambridge, MA: MIT Press.

  • ––– (2005). Economic Theory and Experimental Economics. Journal of Economic Literature, 43: 65–107.

  • ––– (2016). Game Theory in Economics and Beyond. Journal of Economic Perspectives, 30(4): 107–130.

  • Samuelson, P. (1938). ‘A Note on the Pure Theory of Consumers’ Behaviour.’ Economica, 5: 61–71.

  • Savage, L. (1954). The Foundations of Statistics, New York: Wiley.

  • Schelling, T. (1960). Schelling, T (1960). Strategy of Conflict, Cambridge, MA: Harvard University Press.

  • ––– (1978). Micromotives and Macrobehavior, New York: Norton. Second edition 2006.

  • ––– (1980). The Intimate Contest for Self-Command. Public Interest, 60: 94–118.

  • ––– (1984). Choice and Consequence, Cambridge, MA: Harvard University Press.

  • ––– (2006). Strategies of Commitment, Cambridge, MA: Harvard University Press.

  • Selten, R. (1975). ‘Re-examination of the Perfectness Concept for Equilibrium Points in Extensive Games.’ International Journal of Game Theory, 4: 22–55.

  • Sigmund, K. (1993). Games of Life, Oxford: Oxford University Press.

  • Shapley, L. (1953). A Value of n-Person Games. In H, Kuhn and A. Tucker, eds., Contributions to the Theory of Games II, 307–317. Princeton: Princeton University Press.

  • Skyrms, B. (1996). Evolution of the Social Contract, Cambridge: Cambridge University Press.

  • ––– (2004). The Stag Hunt and the Evolution of Social Structure, Cambridge: Cambridge University Press.

  • Smith, V. (1962). An Experimental Study of Competitive Market Behavior. Journal of Political Economy, 70: 111–137.

  • ––– (1964). Effect of Market Organization on Competitive Equilibrium. Quarterly Journal of Economics, 78: 181–201.

  • ––– (1965). Experimental Auction Markets and the Walrasian Hypothesis. Journal of Political Economy, 73: 387–393.

  • ––– (1976). Bidding and Auctioning Institutions: Experimental Results. In Y. Amihud, ed., Bidding and Auctioning for Procurement and Allocation, 43–64. New York: New York University Press.

  • ––– (1982). Microeconomic Systems as an Experimental Science. American Economic Review, 72: 923–955.

  • ––– (2008). Rationality in Economics, Cambridge: Cambridge University Press.

  • Sober, E., and Wilson, D.S. (1998). Unto Others, Cambridge, MA: Harvard University Press.

  • Sterelny, K. (2003). Thought in a Hostile World, Oxford: Blackwell.

  • Stirling, W. (2012). Theory of Conditional Games, Cambridge: Cambridge University Press.

  • Stratmann, T. (1997). Logrolling. In D. Mueller, ed., Perspectives on Public Choice, Cambridge: Cambridge University Press, 322–341.

  • Strotz, R. (1956). Myopia and Inconsistency in Dynamic Utility Maximization. The Review of Economic Studies, 23: 165–180.

  • Sugden, R. (1993). Thinking as a Team: Towards an Explanation of Nonselfish Behavior. Social Philosophy and Policy 10: 69–89.

  • ––– (2000). Team Preferences. Economics and Philosophy 16: 175–204.

  • ––– (2003). The Logic of Team Reasoning. Philosophical Explorations 6: 165–181.

  • ––– (2018). The Community of Advantage, Oxford: Oxford University Press.

  • Thurstone, L. (1931). The Indifference Function. Journal of Social Psychology, 2: 139–167.

  • Tomasello, M., M. Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition. Behavioral and Brain Sciences, 28: 675–691.

  • Vallentyne, P. (ed.). (1991). Contractarianism and Rational Choice, Cambridge: Cambridge University Press.

  • von Neumann, J., and Morgenstern, O., (1944). The Theory of Games and Economic Behavior, Princeton: Princeton University Press.

  • –––, (1947). The Theory of Games and Economic Behavior, second edition, Princeton: Princeton University Press.

  • Weibull, J. (1995). Evolutionary Game Theory, Cambridge, MA: MIT Press.

  • Wilcox, N. (2008). Stochastic Models for Binary Discrete Choice Under Risk: A Critical Primer and Econometric Comparison. In J. Cox and G. Harrison, eds., Risk Aversion and Experiments, Bingley, UK: Emeraldn, 197–292.

  • Wrangham, R. (2009). Catching Fire. London: Profile.

  • Yaari, M. (1987). The Dual Theory of Choice Under Risk. Econometrica, 55: 95–115.

  • Young, H.P. (1998). Individual Strategy and Social Structure, Princeton: Princeton University Press.

  • Zawidzki, T. (2013). Mindshaping, Cambridge, MA: MIT Press.

Academic Tools

Other Internet Resources

economics: philosophy of | game theory: and ethics | game theory: evolutionary | logic: and games | preferences | prisoner’s dilemma

Acknowledgments

I would like to thank James Joyce and Edward Zalta for their comments on various versions of this entry. I would also like to thank Sam Lazell for not only catching a nasty patch of erroneous analysis in the second version, but going to the supererogatory trouble of actually providing fully corrected reasoning. If there were many such readers, all authors in this project would become increasingly collective over time. One of my MBA students, Anthony Boting, noticed that my solution to an example I used in the second version rested on equivocating between relative-frequency and objective-chance interpretations of probability. Two readers, Brian Ballsun-Stanton and George Mucalov, spotted this too and were kind enough to write to me about it. Many thanks to them. Joel Guttman pointed out that I’d illustrated a few principles with some historical anecdotes that circulate in the game theory community, but told them in a way that was too credulous with respect to their accuracy. Michel Benaim and Mathius Grasselli noted that I’d identified the wrong Plato text as the source of Socrates’s reflections on soldiers’ incentives. Ken Binmore picked up another factual error while the third revision was in preparation, as a result of which no one else ever saw it. Not so for a mistake found by Bob Galesloot that survived in the article all the way into the third edition. (That error was corrected in July 2010.) Chris Judge spotted a slip in the historical attribution of the dawn of the mathematical analysis of games, which was corrected in 2019. Some other readers helpfully spotted typos: thanks to Fabian Ottjes, Brad Colbourne, Nicholas Dozet and Gustavo Narez. Finally, thanks go to Colin Allen for technical support (in the effort to deal with bandwidth problems to South Africa) prior to publication of the second version of this entry, to Daniel McKenzie for procedural advice on preparation of the third version, and to Uri Nodelman for helping with code for math notation and formatting of figures for the fifth, version published in 2014.

Copyright © 2023 by Don Ross <don.ross@uct.ac.za>

最后更新于

Logo

道长哲学研讨会 2024