对概率的解释 probability, interpretations of (Alan Hájek)

首次发表于 2002 年 10 月 21 日;实质性修订于 2023 年 11 月 16 日。

概率是现代科学中最重要的概念,尤其是因为没有人对其含义有丝毫的概念。——伯特兰·罗素,1929 年演讲 (引自贝尔,1945 年,587 页)

人们经常读到和听到像下面这样的概率性陈述:

  • 民主党很可能赢得下一次选举。

  • 这枚硬币正反面落地的可能性是一样的。

  • 明天有 30%的降雨概率。

  • 一个镭原子在一年内衰变的概率大约是 0.0004。

但是这些陈述是什么意思呢?这可能被理解为一个关于概率是什么样的事物的形而上学问题,或者更一般地说,是关于什么使概率陈述成立或不成立的问题。初步地说,各种对概率的解释都以某种方式回答了这个问题。

然而,还有一种更严格的用法:一个形式理论的“解释”为其原始符号或术语提供了含义,以便将其公理和定理转化为关于某个主题的真陈述。在概率的情况下,科尔莫戈洛夫的公理化(我们很快会看到)是通常的形式理论,而所谓的“概率解释”通常对其进行解释。这个公理化引入了一个具有某些形式属性的函数“P”。然后我们可以问“P 是什么?”。我们将讨论的几种观点也以某种方式回答了这个问题。

我们的话题变得复杂,因为有各种各样的概率的替代形式。此外,正如我们将看到的,一些主要的“概率解释”并不遵守科尔莫戈洛夫的公理,但它们并没有因此失去它们的称号。而其他一些与概率无关的数量确实满足科尔莫戈洛夫的公理,因此在严格意义上是它的“解释”:归一化质量、长度、面积、体积以及其他落入测度论范围的数量,这是一种抽象的数学理论,它概括了这些数量。然而,没有人认真考虑这些是“概率的解释”,因为它们在我们的概念装置中没有扮演正确的角色。

或许我们最好将这些解释视为对概率各种概念的分析。或者更好的是,我们可以将它们视为对这些概念的阐释,将它们细化为对哲学和科学理论的有益推演(如卡纳普 1950 年,1962 年所述)。

然而,无论我们如何看待它,寻找这样的解释的项目都是一个重要的项目。概率几乎无处不在。它在几乎所有科学中都起着作用。它支撑着社会科学的大部分内容 - 请注意统计检验、置信区间、回归方法等的广泛使用。此外,它还渗透到哲学的许多领域。在认识论、心灵哲学和认知科学中,我们看到主观概率函数对意见状态进行建模,并通过更新这些函数来进行学习。由于概率论对决策论和博弈论至关重要,因此它对伦理学和政治哲学产生了影响。它在形而上学的基本概念中占据重要地位,如因果关系和自然法则。它再次出现在科学哲学中,用于分析理论的确认、科学解释以及特定科学理论的哲学,如量子力学、统计力学、进化生物学和遗传学。它甚至可以成为逻辑哲学、语言哲学和宗教哲学的核心。因此,概率基础问题至少间接地,有时直接地涉及到中心科学、社会科学和哲学问题。概率的解释是最重要的基础性问题之一。


1. 科尔莫戈洛夫的概率计算

概率论在知识史上相对较晚出现。确实,关于证据和推理的原始概率思想可以追溯到古代(参见弗兰克林 2001 年)。然而,概率的数学处理要等到费马-帕斯卡尔通信以及 17 世纪法国对游戏的分析。它的公理化还要等待更久,直到科尔莫戈洛夫经典著作《概率论基础》(1933 年)。大致上,概率介于 0 和 1 之间,并且具有可加性。更正式地说,设 Ω 为一个非空集合(“全集”)。Ω 上的一个域(或代数)是 Ω 的子集的集合 F,其中 F 包含 Ω 作为成员,并且对于 Ω 的补集和并集是封闭的。设 P 是从 F 到实数的函数,满足以下条件:

  1. (非负性) P(A)≥0,对于所有的 A∈F。

  2. (归一性) P(Ω)=1。

  3. (有限可加性) P(A∪B)=P(A)+P(B),对于所有的 A,B∈F,满足 A∩B=∅。

将 P 称为概率函数,(Ω,F,P)称为概率空间。这是科尔莫戈洛夫的“概率基础理论”。

非负性和归一化公理在很大程度上是惯例问题,尽管概率函数至少取两个值 0 和 1,并且具有最大值(与其他测度(如长度、体积等)不同,它们是无界的)是非平凡的。我们将在下面的几个点上回到有限可加性。

现在我们可以将这个理论应用于各种熟悉的情况。例如,我们可以用集合 Ω={1,2,3,4,5,6}表示一次掷一次骰子的结果,我们可以让 F 为 Ω 的所有子集。根据对 F 成员的自然概率分配,我们得到以下令人欢迎的结果:

P({1})=16,P(even)=P({2}∪{4}∪{6})=36,P(odd or less than 4)=P(odd)+P(less than 4)−P(odd∩less than 4)=12+12−26=46,

等等。

相反,我们可以将概率附加到一个形式语言的句子集合 S 的成员上,该集合在(可数的)真值功能组合下封闭,并具有以下对应的公理化。

  1. P(A)≥0 对于所有的 A∈S。

  2. 如果 T 是一个逻辑真理(在经典逻辑中),那么 P(T)=1。

  3. 对于所有的 A∈S 和 B∈S,使得 A 和 B 在逻辑上不相容,有 P(A∨B)=P(A)+P(B)。

概率的承载者有时也被称为“事件”、“结果”或“命题”,但基本形式主义保持不变。对于解释“P”的关注比解释其承载者更多;我们将关注前者。

概率的基本理论足以满足大多数日常应用,也足以满足我们下面的大部分讨论。但在数学、统计学和科学的更高级处理中,需要更多涉及可数无限扩展的数学复杂性。(对数学细节不太感兴趣的读者可以跳到下面的“条件概率…”三段。)现在让我们加强对 F 的封闭性假设,要求它在补集和可数并集下封闭;然后称之为 Ω 上的 σ 域(或 σ 代数)。关于是否应该加强有限可加性存在争议,正如科尔莫戈洛夫所做的那样:

3′.(可数可加性)如果 A1,A2,A3…是一个可数无限序列的(两两)不相交集合,每个集合都是 F 的元素,则 P(∞⋃n=1An)=∞∑n=1P(An)

Kolmogorov 评论说,无限概率空间是真实随机过程的理想化模型,并且他任意地将自己限制在只满足可数可加性的模型上。这个公理是将概率论与测度论相结合的基石。

给定 B 的条件概率由无条件概率的比率给出:

P(A∣B)=P(A∩B)P(B),前提是 P(B)>0。

这通常被视为条件概率的定义,尽管应强调这是一个术语的技术用法,可能与我们可能拥有的预理论概念不完全一致(参见 Hájek,2003)。我们在诸如“骰子落在奇数上的概率是 1/3”或“明天下雨的概率,鉴于明天早上天空中有乌云,是很高的”等说法中认识到它。这是给定某些证据或信息的情况下某事物的概率的概念。事实上,一些作者将条件概率视为原始概念,并直接对其进行公理化(例如,Popper 1959b,Rényi 1970,van Fraassen 1976,Spohn 1986 和 Roeper 和 Leblanc 1999)。

还有其他形式化方法放弃了归一化;放弃了可数可加性,甚至可加性;允许概率取无穷小值(正值,但小于每个正实数);允许概率不精确-区间值,或更一般地用一组精确概率函数表示;以及将概率从定量上转变为比较上(参见 Fine 1974,Halpern 2003,Cozman 2016,Fine 2016,Hawthorne 2016,Lyon 2016)。然而,目前,当我们谈论“概率计算”时,我们将采用科尔莫哥洛夫的方法,这是标准的做法。请参阅 Hájek 和 Hitchcock(2016b)以获得一个相对非技术性的介绍,面向哲学家。

在给定一定的概率作为输入的情况下,公理和定理使我们能够计算出各种进一步的概率。然而,除了将 1 分配给全集和 0 分配给空集之外,它们对概率的初始分配保持沉默。[1] 为了在这方面提供指导,我们需要转向对概率的解释。然而,首先让我们列举一些这种解释的充分性标准。

2. 概率解释的充分性标准

什么标准适用于评估提出的概率解释的合理性?当然,一个解释应该是精确的、明确的、非循环的,并且使用被广泛理解的基本概念。但这些只是一般哲学中的良好思考的规范;具体来说,我们对概率解释有什么要求?我们首先遵循 Salmon(1966, 64)的观点,尽管我们会对他的标准提出一些问题,并提出一些其他标准。他写道:

可接受性。我们说一个形式系统的解释是可接受的,如果解释中赋予原始术语的含义将形式公理转化为真陈述,从而也将所有定理转化为真陈述。概率概念的一个基本要求是满足概率计算中指定的数学关系...

可确定性。这个标准要求至少在原则上,我们能够找到概率值的某种方法。它仅仅表达了这样一个事实,即如果在原则上不可能找出概率是多少,那么概率的概念将是无用的...

适用性。这个标准的力量最好用巴特勒主教的名言来表达,“概率是生活的指南”...

看起来,可接受性的标准是不言而喻的。词语“解释”经常被使用,以至于“可接受的解释”是一个多余的说法。然而,事实证明,这个标准是非平凡的,而且如果认真对待的话,它将排除掉几种主要的概率解释!正如我们将看到的,其中一些解释不能满足可数可加性;对于其他一些解释(某些倾向性解释),至少一些公理的地位是不清楚的。然而,我们将它们视为真正的候选者。此外,应该记住,科尔莫哥洛夫的公理化只是众多可能公理化之一,并且对于哪个公理化是“最好的”(无论这意味着什么)并没有普遍的一致意见。事实上,萨尔蒙更喜欢的公理化与科尔莫哥洛夫的公理化不同。因此,没有所谓的绝对可接受性,而是相对于这个或那个公理化的可接受性。无论如何,如果我们找到了一个不可接受的解释(相对于科尔莫哥洛夫的公理化),它在满足可确定性和适用性标准方面做得非常出色,那么我们肯定应该接受它。

所以让我们转向那些标准。在可确定性标准中,“原则上”到底意味着什么还有点不清楚 - 它超出了实际或可行的范围 - 虽然在这里可能有一些灵活性是好的。大部分工作将由适用性标准完成。我们必须更多地说一下(正如 Salmon 确实所做的那样),概率被认为是生活指南的种类是什么样的。质量、长度、面积和体积都是有用的概念,它们以各种方式是“生活指南”(想想临界距离判断对生存的重要性);此外,它们是可接受和可确定的,因此应该是适用性标准将它们排除在外。也许最好将适用性视为一组标准,每个标准都应该捕捉到概率的独特概念角色的一些内容;此外,我们不应要求给定解释满足所有这些标准。它们包括:

非平凡性:一个解释应该至少使非极端概率成为概念上的可能性。例如,假设我们将“P”解释为真值函数:它将值 1 分配给所有真句,将值 0 分配给所有假句。那么显然,所有公理都成立,所以这个解释是可接受的。然而,我们几乎不会将其视为概率的充分解释,因此我们需要将其排除在外。对于概率来说,至少在原则上,它能够取中间值是至关重要的。我们将介绍的所有解释都满足这个标准,所以我们不再讨论它。

适用于频率:一个解释应该使概率与(长期)频率之间的关系清晰明了。除其他外,它应该清楚地解释为什么通常更可能发生的事件比较不可能发生的事件更频繁。

对于理性信念的适用性:一种解释应该阐明概率在约束理性主体的信念程度或置信度方面所起的作用。在其他方面,如果一个理性主体知道一个事件比另一个事件更有可能发生,他将对前者的发生更有信心。

对于理性决策的适用性:一种解释应该清楚地说明概率在理性决策中的作用。这似乎特别适用于“人生指南”。

对于扩大推理的适用性:一种解释如果能阐明“好”的和“坏”的扩大推理之间的区别,并解释为什么两者都不及演绎推理,那么它将得到额外的加分。

应用于科学的适用性:解释应该阐明概率在科学中的典范用途(例如在量子力学和统计力学中)。

或许还有其他我们可以对解释施加的形而上学的期望。例如,概率与模态之间似乎存在着联系。具有正概率的事件可能发生,即使它们实际上并没有发生。一些作者还坚持相反的条件,即只有具有正概率的事件才能发生,尽管这更具争议性——请参阅我们在第 3.3.4 节中对“规则性”的讨论。(实际上,在不可数概率空间中,这个条件将需要使用无穷小,并且将使我们超出标准的科尔莫哥洛夫理论——“标准”既指正统,也指使用标准而不是“非标准”实数。请参阅 Skyrms 1980 年的论文。)无论如何,我们的列表已经足够长,可以帮助我们评估市场上主要的解释。

3. 主要解释

广义而言,可以说概率有三个主要概念:

  1. 一种认识论概念,旨在衡量客观证据支持关系。例如,“根据相关的地震学和地质学数据,加利福尼亚可能在本十年内发生一次大地震”。

  2. 一种代理人的置信度概念,即分级信念。例如,“我不确定本周堪培拉是否会下雨,但很可能会下”。

  3. 一种适用于世界各个系统的物理概念,独立于任何人的思考。例如,“一个特定的镭原子在 10,000 年内可能会衰变”。

一些哲学家坚持认为,并非所有这些概念都是可理解的;有些人坚持认为其中一个是基本的,并且其他概念可以归约为它。此外,这些概念之间的边界有些渗透性。毕竟,“信心程度”本身就是一个认识论概念,正如我们将看到的,它被认为在世界中既受到证据支持关系的合理限制,也受到对物理概率的态度的限制。而且,正如我们将看到的,支持这些概念的阵营内部存在争议。不管怎样,记住这些概念将是有用的。第 3.1 节和第 3.2 节讨论了概念(1)的分析,即经典概率和逻辑/证据概率;第 3.3 节讨论了概念(2)的分析,即主观概率;第 3.4 节、第 3.5 节和第 3.6 节讨论了概念(3)的三种分析,即频率主义、倾向性和最佳系统解释。

3.1 经典概率

古典解释之所以得名,是因为它具有早期和崇高的渊源。它由德莫佛和拉普拉斯提倡,并且在帕斯卡尔、伯努利、休谟和莱布尼茨的著作中可以找到其初步版本。它在没有任何证据或在存在对称平衡证据的情况下分配概率。其指导思想是,在这种情况下,概率在所有可能的结果之间平均分配,因此事件的古典概率仅仅是事件发生的总可能性数量的一部分。它似乎特别适用于那些通过设计创造这种情况的游戏,例如,一个公平骰子掷出偶数的古典概率是 3/6。它通常被假定(通常是暗示地)在教科书概率谜题中。

这里是德莫佛的经典陈述:

[如果我们构成一个分数,其中分子是事件可能发生的机会数,分母是它可能发生或失败的所有机会数,那么这个分数将是事件发生的概率的适当表示。(1718; 1967, 1–2)]

拉普拉斯给出了最为著名但略有不同的表述:

概率论的理论在于将同类事件归纳为一定数量的等可能情况,也就是说,我们对这些情况的存在同样不确定,并确定有利于所寻求概率的事件的情况数量。这个数量与所有可能情况的数量之比就是这个概率的度量,因此只是一个分数,其分子是有利情况的数量,分母是所有可能情况的数量。(1814 年;1999 年,4 页)

我们可以对这个表述提出一些问题。什么时候才算是同类事件?直观上,抛掷公平硬币的结果“正面”和“反面”是同样可能的;但如果它们的类别是“硬币可能落地的方式”,那么“边缘”应该被计算在内。所谓的“一定数量的等可能情况”和“所有可能情况的数量”应该是有限的。那么,在无限空间中的概率如何处理?显然,像 1/√2 这样的无理数概率会被自动排除,因此无法容纳假设这种概率的量子力学等理论。(然而,我们很快将看到,拉普拉斯的理论已经被改进以处理无限空间。)

“我们”是谁,“同样不确定”的是谁?不同的人可能对不同的事情同样犹豫不决,这表明拉普拉斯提供了一种主观解释,其中概率因个人之间在证据上的偶然差异而有所不同。然而,他的意思是要描述一个在认识上中立的位置上对一组“同样可能”的情况进行客观概率分配的理性主体。但是这个提议可能听起来是空洞的:对于一个主体来说,对一组情况“同样不确定”意味着什么,除了给它们分配相等的概率?

这使我们引入了对拉普拉斯解释的一个关键反对意见之一。"等可能" 的概念面临着要么是范畴错误(因为 "可能性" 并不具有程度),要么是循环的指责(因为实际上指的是 "等可能性")。这个概念被所谓的 "无差别原则" 巧妙地解决了,这个术语是由凯恩斯创造的(尽管他并不赞同这个原则):"如果没有已知的理由来断定我们的主题与几个选择中的哪一个相关,那么相对于这样的知识,每个选择的断言具有相等的概率"(1921 年,52-53 页)。("等概率原则" 可能是一个更好的名称。)因此,可以声称,在经典解释中,实际上并没有循环性。然而,这种做法可能只是推迟了问题,因为仍然存在循环性的威胁,尽管在较低的层面上。我们在这里有两种情况:一种是我们根本没有任何证据("理由")的结果,另一种是我们有对称平衡证据的结果。在第一种情况下,除非 "证据" 本身是概率的,否则没有循环性;但是,除了人为的例子之外,很难说这种情况是否真的存在。例如,我们对抛硬币的结果有大量的证据,来自我们自己的实验结果、他人的证词、我们对一些相关物理学的了解等等。在第二种情况下,循环性的威胁更加明显,因为似乎需要对每个结果的证据进行某种权衡,而这似乎需要参考概率。实际上,对称平衡证据最明显的刻画是基于条件概率的相等性:给定证据 E 和可能结果 O1,O2,…,On,当且仅当 P(O1∣E)=P(O2∣E)=…=P(On∣E)时,证据是对称平衡的。然后,似乎概率最终存在于解释的基础上。 然而,如果所有的概率都能够归结为等概率的情况,那将是一个成就。有关古典解释和无差别原理的进一步讨论,请参阅 Zabell(2016)。

当空间是可数无穷时,可以通过信息论的最大熵原理来维持古典理论的精神,这是 Jaynes(1968)提倡的无差别原理的一种推广。熵是概率函数“信息性”的度量。函数越集中,熵越小;函数越分散,熵越大。对于离散概率分配 P=(p1,p2,…)来说,P 的熵定义为:

−∑ipilogpi

(有关此公式的更多解释,请参见“信息”条目。)

最大熵原理要求我们从与我们的背景知识一致的所有概率函数族中选择使得该数量最大化的函数。在选择最不具信息的概率函数作为有限可能结果集的特殊情况下,这就是先前讨论过的熟悉的“平坦”经典分配。在无限情况下情况变得更加复杂,因为不能有一个平坦的分配来覆盖可数多个结果,否则将违反标准的概率计算(具有可数可加性)。相反,我们能够得到的是逐渐变平的分配序列,其中没有一个是真正平坦的。然后,我们必须施加一些进一步的约束,将领域缩小到一个更小的族群,其中存在最大熵的分配。[3] 这个约束必须从外部作为背景知识施加,但是目前没有一般理论可以确定应该应用哪种外部约束。有关最大熵和对其的批评,请参见 Seidenfeld(1986)的数学结果。

现在让我们转向不可数无限空间。很容易(太容易了)将相等的概率分配给这样一个空间中的点:每个点的概率都是 0。当不可数多个点聚集在更大的集合中时,才会出现非平凡的概率。如果只有有限多个聚集点,可以再次借用拉普拉斯的经典理论:如果证据对这些聚集点具有对称性,那么每个聚集点都会获得相同的概率份额。

进入伯特兰悖论(1889 年)。它们都发生在不可数空间中,并且涉及到与彼此非线性相关的给定问题的替代参数化。有些表述过于晦涩;长度和面积足以说明问题。以下示例(改编自 van Fraassen 1989)很好地说明了伯特兰式悖论的工作原理。一家工厂生产边长在 0 到 1 英尺之间的立方体;随机选择一个立方体,其边长在 0 到 1/2 英尺之间的概率是多少?经典解释的答案显然是 1/2,因为我们想象一个边长均匀分布的生产过程。但是,这个问题可以给出一个等价的重新陈述:一家工厂生产面积在 0 到 1 平方英尺之间的立方体;随机选择一个立方体,其面积在 0 到 1/4 平方英尺之间的概率是多少?现在答案显然是 1/4,因为我们想象一个面积均匀分布的生产过程。这已经是灾难性的了,因为我们不能允许同一个事件有两个不同的概率(尤其是如果这种解释是可接受的!)。但更糟糕的是,这个问题可以再次等价地重新陈述:一家工厂生产体积在 0 到 1 立方英尺之间的立方体;随机选择一个立方体,其体积在 0 到 1/8 立方英尺之间的概率是多少?现在答案显然是 1/8,因为我们想象一个体积均匀分布的生产过程。对于问题的所有无限多个等价改写(以长度的四次方、五次方...以及每个非零实值指数的形式),情况都是如此。那么,问题事件的概率是多少?

悖论的产生是因为无差别原则可以以不兼容的方式使用。我们没有证据表明边长在区间 [0, 1/2] 上的概率优于在 [1/2, 1] 上的概率,反之亦然,因此根据该原则,我们必须给予每个概率为 1/2。不幸的是,我们也没有证据表明面积在四个区间 [0, 1/4],[1/4, 1/2],[1/2, 3/4] 和 [3/4, 1] 中的概率优于其他任何区间,因此我们必须给予每个概率为 1/4。事件“边长在 [0, 1/2] 中”在重新描述时会得到不同的概率。对于问题的所有其他重新表述也是如此。我们无法同时满足任何一对这些约束条件,更不用说所有的约束条件了。

Jaynes 试图挽救无差别原则,并将最大熵原则扩展到连续情况,他提出了不变性条件:在我们具有相同知识的两个问题中,我们应该分配相同的概率。他将此视为一种一致性要求。对于任何问题,我们都有一组可接受的变换,这些变换将问题转化为等价形式。问题中的各种细节未指定;对问题的等价表述以不同方式填补了这些细节。Jaynes 的不变性条件要求我们给予等价命题相等的概率,这些命题是通过对问题进行这些可接受变换得到的相互重新表述。满足这个条件的任何概率分配都被称为不变分配。理想情况下,我们的问题将有一个唯一的不变分配。当然,并不总是理想的;但有时候是的,在这种情况下,这无疑是对 Bertrand 式问题的进展。

无论如何,对于许多普通问题,不需要使用这样的技术设备。假设我告诉你,在三扇门中有一个奖品,你可以选择一扇门。这似乎是一个典型的情况,其中无差别原则适用得很好:你选择正确门的概率是 1/3。我们似乎不太可能担心问题的某种重新参数化会得出不同的答案。当然,Bertrand 式问题提醒我们无差别原则存在一定的局限性。但可以说,我们必须小心不要过分夸大其适用性。

古典概率理论在我们的适用性标准方面如何表现?让我们从可接受性开始。(拉普拉斯)古典概率遵守非负性和归一化,但它们只是有限可加的(de Finetti 1974)。因此,它们不遵守完整的科尔莫哥洛夫概率计算,但它们提供了一种解释的基本理论。

古典概率是可以确定的,假设可能性空间可以原则上确定。它们与理性主体的确信度有关;正如我们上面所看到的,循环性问题是关于这种关系是空洞的,而不是约束处于认识中立位置的理性主体的确信度,而只是记录它们。

没有补充,经典理论与频率信息没有联系。然而,无论硬币在一系列试验中如何落地,可能的结果仍然相同。实际上,即使我们有强有力的经验证据表明硬币偏向正面的概率为 0.6,很难看出未装饰的经典理论如何解释这个事实-现在有十种可能性,其中六种对正面有利?拉普拉斯通过他的继承法则补充了这个理论:“因此,我们发现一个事件连续发生任意次数,它下一次发生的概率等于这个数字加一除以相同的数字,再加两个单位。”(1951 年,19 页)也就是说:

Pr(第 N+1 次试验成功 ∣N 次连续成功)=N+1/N+2

因此,归纳学习是可能的-虽然不是通过经典概率本身,而是通过这个进一步的规则。我们必须问自己,这样一个简单的公式是否能够完全捕捉到这种学习,适用于所有领域和事件。当我们讨论下面的逻辑解释时,我们将回到这个问题。

科学显然在各个方面都涉及到看起来经典的概率。玻色-爱因斯坦统计、费米-狄拉克统计和麦克斯韦-玻尔兹曼统计是通过考虑将粒子分配到状态的方式,并将不同的子集应用于不同的分割,以及应用于不同的分割,而产生的。问题在于,玻色-爱因斯坦统计适用于某些粒子(例如光子),而不适用于其他粒子,费米-狄拉克统计适用于不同的粒子(例如电子),而麦克斯韦-玻尔兹曼统计则不适用于任何已知的粒子。这些都无法事先确定,正如经典解释所认为的那样。此外,经典理论声称在面对无知时可以产生概率分配。但正如 Fine(1973)所写:

如果我们对一组备选方案真的一无所知,那么我们对备选方案的组合以及备选方案的分割也一无所知。然而,当将等同原则应用于备选方案、其组合或其分割时,会得出不同的概率分配(170)。

这就引出了关于经典解释的争议的主要观点之一。批评者指责等同原则从无知中提取信息。支持者回应说,它更多地是对这种无知在认识论上应该如何管理的编码,因为除了等同的概率分配之外,其他任何概率分配都代表了某种知识的存在。批评者反驳说,在完全无知的状态下,最好分配不精确的概率(可能涵盖整个 [0, 1] 区间),或者完全避免分配概率。

3.2 概率的逻辑/证据解释

3.2.1 逻辑解释

概率的逻辑理论保留了经典解释的观点,即概率可以通过对可能性空间的检查来确定。然而,它们在两个重要方面进行了推广:可能性可以被赋予不同的权重,并且概率可以根据证据的不同进行计算,无论是对称平衡的还是不对称平衡的。事实上,逻辑解释以其各种形式,试图在完全的普遍性中概括证据 e 对给定假设 h 的支持或确认程度,我们可以将其写为 c(h,e)。在这样做的过程中,它也可以被看作是推理的完整理论,具备了将 e 与 h 相关联的“蕴涵程度”的概念,从而将其概括为演绎逻辑和其蕴涵概念的完整理论。它通常被称为“归纳逻辑”的理论,尽管这是一个误称:对于 h 来说,e 在任何意义上都不需要是“归纳”的证据。"非演绎逻辑" 可能是一个更好的名称,但这忽视了演绎逻辑的蕴涵和不相容关系也被作为极端情况纳入其中,其中确认函数分别取值为 1 和 0。无论如何,逻辑解释为归纳提供了一个框架,这是非常重要的。

早期的逻辑概率倡导者包括约翰逊(1921 年)、凯恩斯(1921 年)和杰弗里斯(1939/1998 年)。然而,迄今为止对逻辑概率最系统的研究是由卡纳普进行的。他对逻辑概率的构建始于一个形式语言的建立。在(1950/1962 年)中,他考虑了一类非常简单的语言,由有限数量的逻辑独立的一元谓词(命名属性)应用于可数多个个体常量(命名个体)或变量,以及通常的逻辑连接词。在给定语言中可以做出的最强(一致的)陈述以尽可能详细地描述所有个体。它们是每个个体的完整描述的合取式,每个描述本身都包含语言中每个谓词的一个(否定或非否定)出现。将这些最强的陈述称为状态描述。

任何对状态描述的概率度量 m(−)自动扩展到对所有句子的度量,因为每个句子等价于状态描述的析取;m 反过来引出一个确认函数 c(−,−):

c(h,e)=m(h&e)m(e)

对于非常简单的语言,m 和 c 的候选者是无限多的。卡尔纳普通过坚持认为,显著区分个体之间的唯一事物是某种定性差异,而不仅仅是标签上的差异,来为他偏爱的度量“m∗”进行论证。将结构描述称为一组最大的状态描述,其中每个状态描述都可以通过个体名称的某种排列获得另一个状态描述。m∗ 为每个结构描述分配相等的度量,然后将其平均分配给它们的组成状态描述。它对同质状态描述给予比异质状态描述更大的权重,从而根据推测合理的归纳实践“奖励”个体之间的一致性。诱导的 c∗ 允许从经验中进行归纳学习。

例如,考虑一个具有三个个体名称 a、b 和 c 以及一个谓词 F 的语言。对于这种语言,状态描述如下:

1.Fa&Fb&Fc2.¬Fa&Fb&Fc3.Fa&¬Fb&Fc4.Fa&Fb&¬Fc5.¬Fa&¬Fb&Fc6.¬Fa&Fb&¬Fc7.Fa&¬Fb&¬Fc8.¬Fa&¬Fb&¬Fc

有四个结构描述:

{1},“一切都是 F”;{2,3,4},“两个 F,一个 ¬F”;{5,6,7},“一个 F,两个 ¬F”;和{8},“一切都是 ¬F”;

测度 m∗ 将数字分配给状态描述如下:首先,每个结构描述被分配相等的权重,1/4;然后,属于给定结构描述的每个状态描述被分配结构描述分配的权重的相等部分:

状态描述结构描述权重 m∗1. 一切都是 F1/41/42. ¬Fa.Fb.Fc3. Fa.¬Fb.Fc4. Fa.Fb.¬Fc⎫⎪⎬⎪⎭II. 两个 Fs,一个 ¬F1/4⎧⎪⎨⎪⎩1/121/121/125. ¬Fa.¬Fb.Fc6. ¬Fa.Fb.¬Fc7. Fa.¬Fb.¬Fc⎫⎪⎬⎪⎭III. 一个 F,两个 ¬F1/4⎧⎪⎨⎪⎩1/121/121/128. ¬Fa.¬Fb.¬FcIV. 一切都是 ¬F1/41/4

注意,m∗ 对于同质状态描述 1 和 8 的权重大于异质状态描述的权重。这将在归纳支持中体现出来,假设可以从适当的证据陈述中获得支持。考虑假设陈述 h=Fc,在 8 个状态描述中有 4 个为真,先验概率为 m∗(h)=1/2。假设我们检查个体“a”并发现它具有属性 F — 将此称为证据 e。直观上,e 是对 h 有利的(虽然是弱的)归纳证据。我们有:m∗(h&e)=1/3,m∗(e)=1/2,因此

c∗(h,e)=m∗(h&e)m∗(e)=23.

这比先验概率 m∗(h)=1/2 要大,因此假设得到了确认。可以证明,一般情况下 m∗ 会产生一个确认程度 c∗,从而可以通过经验进行学习。

然而需要注意的是,通过适当选择初始度量定义的无限多个确认函数可以通过经验进行学习。我们目前没有理由认为 c∗ 是正确的选择。卡纳普(Carnap)声称 c∗ 之所以突出,是因为它简单而自然。

他后来将他的确认函数推广到了一个连续的函数 cλ 的集合。将一个谓词族定义为一个谓词的集合,使得对于每个个体,集合中恰好有一个成员适用,并考虑包含有限个谓词族的一阶语言。卡纳普(Carnap)(1963)专注于只包含一元谓词的特殊情况。他提出了关于确认函数 c 的一系列公理,包括由概率计算本身引起的公理,各种对称性公理(例如,对于个体的排列和任何谓词族的排列,c(h,e)保持不变),以及保证无独断归纳学习和长期收敛到相对频率的公理。它们意味着对于一个谓词族{Pn},n=1,…,k (k>2):

cλ(个体 s+1 是 Pj,前 s 个个体的 sj 是 Pj)=(sj+λ/k)s+λ,

这里,λ 是一个正实数。λ 的值越高,证据的影响越小:从观察到的内容归纳变得越来越被每个 k 个可能性对个体 s+1 的经典式等分所淹没。

我转向文献中提出的对 Carnap 计划的各种反对意见,指出这仍然是一个活跃辩论的领域。(参见 Maher(2010)对其中一些反对意见的反驳和对该计划的辩护;参见 Fitelson(2006)对该计划的总体评估。)首先,是否存在正确的 λ 设置,或者换句话说,确认函数应该有多“归纳”?这里的担忧是,λ 的任何特定设置在某种程度上都是任意的,这损害了 Carnap 提供逻辑概率概念的主张。此外,事实证明,对于任何这样的设置,无论有什么(有限)证据,无限宇宙中的普遍陈述总是得到零的确认。许多人认为这是违反直觉的,因为具有无限多个实例的自然法则显然可以得到确认。Earman(1992)讨论了避免这一不受欢迎结果的前景。

显然,Carnap 的各种对称公理几乎不是逻辑真理。此外,Fine(1973 年,202 页)认为,我们不能强加更多的对称约束,这些约束似乎与 Carnap 的约束一样合理,否则就会产生不一致性。Goodman(1955 年)教导我们:未来将在某些方面类似于过去是平凡的;未来将在所有方面类似于过去是矛盾的。我们可以继续说:使概率分配符合某些对称性是平凡的;使其符合所有对称性是矛盾的。这威胁到了整个逻辑概率的计划。

另一个 Goodman 的教训是归纳逻辑必须对谓词的含义敏感,这强烈暗示了像 Carnap 这样的纯句法方法注定要失败。Scott 和 Krauss(1966 年)在比 Carnap 更丰富和更现实的语言中使用模型理论来制定逻辑概率。然而,对许多人来说,找到一个规范语言似乎是一个白日梦,至少如果我们想分析任何真正有趣的论证的“逻辑概率”——无论是在科学中还是在日常生活中。

逻辑概率是可接受的。很容易证明它们满足有限可加性,并且鉴于它们定义在有限句集上,对可数可加性的扩展是微不足道的。在选择语言的情况下,可以确定给定确认函数的值;因此,如果这种语言对于给定的应用足够丰富,相关的概率是可以确定的。逻辑概率理论的整个目的是阐明扩大推理,尽管在选择语言和设置 λ(即确认函数的选择)方面存在明显的任意性,人们可能会怀疑它在多大程度上实现了这一目标。确认函数的任意性问题也妨碍了逻辑解释能够真正阐明概率和频率之间联系的程度。

此外,任意性问题还阻碍了逻辑概率与理性信念之间的有力联系。即使确认函数已经选择好,仍然存在另一个问题:如果一个人的信念要基于逻辑概率,它们必须相对于一个证据陈述进行相对化。卡纳普要求 e 是一个人的全部证据——在一个人掌握的最具体信息中,最强的命题。但也许学习并不以这种“基石”命题的形式出现,正如杰弗里(1992)所主张的那样——也许它更多地涉及主观概率在一个分割中的转变,而没有任何一个分割单元变得确定。那么,一个人确定的最强命题可能由一个重言式 T 来表示——这几乎不是一个有趣的“全部证据”的概念。[4]

关于“适用于科学”标准的问题,拉卡托斯提出了一个重要观点。根据卡纳普的观点,一个假设的确认程度取决于假设所陈述的语言以及确认函数所定义的范围。但是科学进步往往伴随着科学语言的变化(例如,添加新的谓词和删除旧的谓词),这种变化将导致相应的 c 值的变化。因此,科学的发展可能推翻任何特定的确认理论。这里有一种蛇吃自己尾巴的感觉,因为逻辑概率本应阐明科学理论的确认。

我们已经看到,后来的卡纳普放宽了他早期寻找唯一确认函数的愿望,允许存在一系列显示出不同归纳谨慎程度的函数。一些对逻辑概率持批评态度的人认为他的改变还不够远-即使是他后来的系统也限制了归纳学习超出了理性所需的范围。这让人想起 20 世纪早期凯恩斯和拉姆齐之间的经典辩论,凯恩斯是逻辑概率的著名支持者,拉姆齐则是同样著名的反对者。拉姆齐(1926;1990)对于逻辑概率存在任何非平凡的关系持怀疑态度:他说他自己无法辨别出这些关系,而且其他人对此也有不同意见。这种怀疑导致他提出了他极具影响力的主观概率解释,稍后将进行讨论。

3.2.2 证据解释

然而,有人可能坚持认为,即使它们不是逻辑的,也存在非平凡的概率证据关系。也许,根据我们的证据,太阳明天可能升起并不是一个逻辑问题,然而,从客观意义上讲,根据我们的证据,它似乎很可能会升起。在犯罪调查中,可能存在一个事实,即可用证据对各个嫌疑人的罪行支持程度有多强。这似乎不是一个逻辑问题,也不是一个物理问题,也不是任何人碰巧认为的问题,也不是实际世界中事实的问题。相反,它似乎是一个证据概率的问题。

更一般地说,蒂莫西·威廉姆森(2000 年,209 页)写道:

鉴于科学假设 h,我们可以合理地问:根据现有证据,h 有多大的概率?我们在询问证据对假设的支持或反对程度。我们并不询问 h 具有什么客观的物理机会或真实频率。即使其真实机会为 1,根据现有证据,一个自然法则的提议可能是相当不可能的。这与一个明显的观点相当一致,即与 h 有关的证据可能包括关于客观机会或频率的证据。同样,在询问 h 在现有证据上有多大的概率时,我们并不询问任何人对 h 的实际信念程度。即使每个人对 h 都有非理性的确定性,现有证据可能强烈反对 h。

威廉姆森将一个人的证据与他所知道的事情等同起来。然而,人们可能采用其他对证据的概念,并且甚至可能将证据的概率与任意两个命题联系起来。威廉姆森认为证据的概率不是逻辑的,特别是它们不是句法可定义的。他假设了一个初始概率分布 P,该分布“在调查之前衡量了假设的内在合理性”(211 页)。然后,总证据 e 上的 h 的证据概率由 P(h∣e)给出。

证据的概率是否可接受?威廉姆森说:“P 将被假定满足概率计算的一套标准公理”(211 页)。因此,可接受性已经内置在 P 的规范中。它们是否可确定?他写道:

那么,证据的概率是什么?我们应该抵制对操作性定义的要求;这样的要求在科学哲学中和科学本身中都是有害的。有时,最好的策略是继续使用一个模糊但强大的概念进行理论化。一个人最初的直觉理解会因此得到改进,尽管很少能达到在精确的前理论术语中的定义的程度。这个策略将在这里被追求。(211 页)

这可能被理解为拒绝确定性作为充分性标准。

然而,一些作者对于存在证据概率这样的事物持怀疑态度,例如 Joyce(2004)。他还认为,证据对于假设的支持或反对存在多种意义。Bacon(2014)允许存在证据概率这样的事物,但他认为,根据 Williamson 对其的解释,会导致各种令人困惑的结果,因为它将证据与知识等同起来。此外,人们可以抵制对证据概率进行操作性定义的要求,同时寻求通过其他理论概念进一步理解它们的方式。例如,也许 P(h∣e)是一个完全理性的代理人在具有证据 e 的情况下分配给 h 的主观概率?Williamson 反对这个提议;Eder(2023)为其辩护,并提供了几种将证据概率解释为理想主观概率的方式。如果有一种这样的方式是可行的,证据概率可能会享有与这些主观概率相同的适用性。这将引出我们对概率的下一个解释。

3.3 主观解释

3.3.1 概率作为信念程度

在 Ramsey 几乎一个世纪之前,德摩根写道:“通过概率程度,我们真正意味着,或者应该意味着,信念程度”(1847 年,172 页)。根据主观(或个人主义或贝叶斯)解释,概率是适当代理人的信心程度、置信度或部分信念。因此,我们在这里真正有很多关于概率的解释——与适当的代理人一样多。什么使一个代理人适当?我们可以称之为无约束的主观主义对代理人没有任何限制——任何人都可以,因此任何事情都可以。心理学家进行的各种研究表明,人们通常以惊人的方式违反了通常的概率计算规则(例如,参见 Kahneman 等人 1982 年的几篇文章)。显然,我们在这里没有一个可接受的解释(关于任何概率计算),因为代理人可能具有的信心程度没有限制。

然而,更有希望的是,适当的代理人必须在某种程度上是理性的。在 Ramsey 之后,各种主观主义者希望通过将概率描绘为“部分信念的逻辑”(1926 年;1990 年,53 和 55 页)来将概率与逻辑相结合。要求一个理性的代理人在广义上是逻辑一致的。这些主观主义者认为,这意味着代理人遵守概率公理(尽管可能只有有限可加性),因此主观主义在这个程度上是可接受的。在我们提出这个论证之前,我们必须更多地谈谈信念程度是什么。

3.3.2 投注分析和荷兰书论证

长期以来,主观概率一直以投注行为的角度进行分析。以下是德·芬内蒂(1980)的经典陈述:

让我们假设一个个体被迫评估他愿意以多大的比率 p 交换拥有一个与事件 E 的发生有关的任意金额 S(正数或负数)的所有权,以获得比率 pS 的金额的所有权;我们将根据定义说,这个数 p 是个体对事件 E 所赋予的概率程度的度量,或者更简单地说,p 是 E 的概率(根据所考虑的个体;如果没有歧义,这个说明可以是隐含的)。 (62)

这归结为以下分析:

你对 E 的信念程度是 p,当且仅当 p 单位的效用是你愿意以这个价格买或卖一项赌注,如果 E 发生则获得 1 单位的效用,如果 E 不发生则获得 0 单位的效用。

这个分析假设对于任何 E,都存在一个这样的价格——我们称之为你对于 E 赌注的公平价格。这个假设可能不成立。可能不存在这样的价格——你可能根本不愿意对 E 进行赌注(除非被强迫,这种情况下你对 E 的真实意见可能不会被揭示),或者你的卖出价格可能与你的买入价格不同,这可能发生在你对 E 的概率不精确的情况下。可能存在多个公平价格——你可能会接受一系列这样的价格,这也可能发生在你对 E 的概率不精确的情况下。然而,现在让我们暂时搁置这些问题,转而讨论一个重要的论证,该论证声称使用赌注分析可以显示合理的信念程度必须符合概率计算(至少是有限可加性)。

荷兰书是一系列以价格买卖的赌注,无论世界如何变化,都能确保总体上的亏损。假设我们将你的置信度与你的投注价格联系起来。拉姆齐指出,并且可以很容易地证明(例如,Skyrms 1984),如果你的置信度违反了概率计算法则,那么你就容易受到荷兰书的影响——这就是荷兰书定理。例如,假设你通过分配 P(A∪B)<P(A)+P(B)来违反可加性公理,其中 A 和 B 是互斥的。那么,一个狡猾的赌徒可以从你那里以 P(A∪B)单位的价格购买 A∪B 的赌注,并分别以 P(A)和 P(B)单位的价格向你出售 A 和 B 的赌注。他会获得 P(A)+P(B)−P(A∪B)的初始利润,并且无论发生什么都会保留这笔利润。拉姆齐提出了以下有影响力的解释:“如果任何人的心理状态违反了这些 [概率计算] 法则,他的选择将取决于选项以何种具体形式向他提供,这是荒谬的。”(1990 年,78 页)荷兰书论证的结论是:理性要求你的置信度遵守概率计算法则。

该论点本身是不完整的。正如 Hájek(2008 年,2009b 年)所观察到的,荷兰书定理留下了这样一种可能性,即无论你的置信度是否违反了概率计算,你都可能受到荷兰书的影响——也许我们都容易受到影响?同样重要但经常被忽视的是,逆定理建立了你如何避免这种困境。如果你的主观概率符合概率计算,那么就不可能对你进行荷兰书(Kemeny 1955);然后称你的概率分配是一致的。Williamson(1999)将荷兰书论证扩展到可数可加性:如果你的置信度违反了可数可加性,那么你就容易受到荷兰书的影响(有无限多的赌注)。因此,符合完整概率计算似乎是一致性的必要和充分条件。[5] 因此,我们有一个论证,即合理的置信度提供了完整概率计算的解释,从而提供了一个可接受的解释。然而,请注意,de Finetti——作为主观主义者和荷兰书论证的支持者——反对可数可加性(例如在他的 1974 年)。有关荷兰书论证对概率计算的一致性以及对置信度的其他假设规范的各种反对意见,请参见 Hájek(2009b 年),Pettigrew(2020 年)以及荷兰书论证条目。

但让我们回到对置信度的投注分析。这是一种试图实现 Ramsey 的观点的尝试,即概率“是信念的度量作为行动的基础”(67)。虽然他认为通过一个人的投注行为来衡量其置信度的方法“基本上是可靠的”(68),但他也承认它有其局限性。

赌注分析给出了主观概率的操作性定义,实际上它继承了操作主义和行为主义的一些困难。例如,您可能有理由歪曲您真实的意见,或者假装拥有实际上您没有的意见,通过进行相关的赌注(也许是为了利用他人赌注价格的不一致性)。此外,正如拉姆齐指出的那样,下注本身可能会改变您的意见状态。显然,这样做会涉及到与赌注本身有关的事项(例如,您突然增加了您刚刚下注的概率)。不那么显然的是,下注可能会以其他方式改变世界,从而改变您的意见。例如,高额下注于“我今晚将睡得很好”的命题可能会突然使您失眠!然后,赌注可能涉及到一个事件,如果发生了,您将不再以相同的方式评估回报。(1999 年 8 月 11 日英国发生日食时,有人下注如果世界末日到来将获得一百万英镑。)

这些问题主要源于对于参与 E 赌注的概念的字面理解,以及相应的回报。通过将您对命题的信念程度与您认为公平的赌注价格相对应,无论您是否参与这样的赌注,可以避免这些问题;它对应于您认为对于赌注的任何一方都没有优势或劣势的赌注赔率(Howson 和 Urbach 1993)。在您的公平价格上,您应该对于选择任何一方都持中立态度。[6]

De Finetti 将“任意金额”称为对 E 的赌注的奖金。这笔金额最好是潜在的无限可分割的,否则概率测量只能精确到潜在奖金的“粒度”水平。例如,只能分成 100 份的金额将使概率测量在第二位小数之后变得不精确,混淆应该区分的概率(例如,逻辑矛盾和“公平硬币连续 8 次正面朝上”的概率)。更重要的是,如果效用不是这些金额的线性函数,那么奖金的大小将对假设的概率产生影响:对一个穷人来说,赢得一美元比对比尔·盖茨来说更重要,这可能会反映在他们的投注行为中,而与他们真实的概率分配无关。De Finetti 通过建议奖金保持较小来回应这个问题;然而,正如 Ramsey 所指出的那样,这只会产生相反的问题,即代理人可能不愿意为琐事烦恼。

那么,最好让奖金以效用来衡量:毕竟,效用是无限可分割的,而且效用是效用的线性函数。顺便说一句,我们应该采用更自由的投注观念。毕竟,正如 Ramsey 所观察到的那样,从某种意义上说,每个决策都是一次赌注。

3.3.3 概率和效用

结果的效用(可取性),它们的概率和理性偏好之间存在密切联系。Port Royal Logic(Arnauld, 1662)展示了效用和概率如何共同决定理性偏好;de Finetti 的投注分析从效用和理性偏好中推导出概率;von Neumann 和 Morgenstern(1944)从概率和理性偏好中推导出效用。最令人惊讶的是,Ramsey(1926)(以及后来的 Savage 1954 和 Jeffrey 1966)仅从理性偏好中推导出概率和效用。

首先,他定义了一个命题在某个特定代理人看来是伦理中立的,如果该代理人对该命题的真假无所谓。代理人对伦理中立命题本身并不关心,它可能是他关心的目标的手段,但它本身没有内在价值。(对于我们大多数人来说,抛硬币的结果通常是这样的。)现在,有一个简单的测试可以确定对于给定的代理人,一个伦理中立命题 N 是否具有概率 1/2。假设代理人更喜欢 A 而不是 B。那么当且仅当代理人对以下赌局无所谓时,N 具有概率 1/2:

如果 N,则选择 A;如果不 N,则选择 B。如果 N,则选择 B;如果不 N,则选择 A。

Ramsey 假设候选人 A 和 B 的具体内容并不重要。我们可以任意地给 A 和 B 分配任意两个实数 u(A)和 u(B),其中 u(A)>u(B),被视为 A 和 B 的可取性。在为任意选择的一对 A 和 B 完成后,所有其他命题的效用就被确定了。

在对偏好空间丰富性和某些“一致性假设”进行各种假设的基础上,他可以定义结果 A、B 等的实值效用函数,实际上,各种这样的函数都可以代表代理人的偏好。然后,他能够为代理人对任何具有偏好的结果定义效用差的相等性。事实证明,效用差的比率是不变的,无论我们选择哪个代表性效用函数。这个事实使得 Ramsey 能够将信念程度定义为这种差异的比率。例如,假设代理人对 A 和赌博“如果 X,则 B,否则 C”持中立态度。那么根据预期效用的考虑,她对 X 的信念程度 P(X)由以下公式给出:

P(X)=u(A)−u(C)u(B)−u(C)

Ramsey 显示,由此得出的信念程度遵守概率计算(具有有限可加性)。

Savage(1954)同样从在某些所谓的“一致性”公理约束下的选项偏好中推导出概率和效用。对于给定的这类偏好集合,他生成了一类效用函数,每个函数都是另一个函数的正线性变换(即 U1=aU2+b,其中 a>0),以及一个唯一的概率函数。这些被称为“代表”代理人的偏好,而结果被称为“代表定理”。Jeffrey(1966)改进了 Savage 的方法。结果是一个决策理论,根据该理论,理性选择最大化“期望效用”,即一种概率加权平均效用。(有关更多讨论,请参见 Buchak 2016。)现在,可以通过转向以功能主义精神进行的信念程度分析来解决一些与行为主义投注分析相关的困难。例如,根据 Lewis(1986a,1994a),代理人的置信度由属于最佳合理化其行为倾向的效用函数/概率函数对的概率函数表示,其中理性被给予决策理论分析。代表定理(以某种形式)支持代表定理论证,即理性代理人的置信度遵守概率计算:他们的偏好遵守必要的公理,因此他们的置信度可以以这种方式表示。然而,除了以概率方式表示之外,这类代理人的置信度还可以以非概率方式表示;为什么概率表示应该受到特权?有关对代表定理论证的这一和其他异议,请参见 Zynda(2000),Hájek(2008)和 Meacham 和 Weisberg(2011)。

所有这些对主观概率的解释都存在一个深层问题。它们都假设了欲望类似状态和信念类似状态之间的必然联系,并在偏好和概率之间的联系中明确表达出来。作为回应,有人可能坚持认为这种联系充其量是偶然的,甚至可以想象不存在。想象一下一个理想化的禅宗僧侣,没有任何偏好,冷静地观察他面前的世界,形成信念但没有欲望。可以回答说,这样的行动者并不容易想象出来——即使这位僧侣不珍视世俗财物,他仍然会偏好某些事物而不是其他事物(例如,真理而不是谬误)。

一旦欲望进入画面,它们也可能带来不希望的后果。再次,如何将一个行动者对赌博的喜爱或鄙视与她对赌博本身的价值分开?具有讽刺意味的是,拉姆齐在对投注分析的批评中提到的一句话在这里似乎很贴切:“困难就像分离两个不同的合作力量一样”(1990 年,68 页)。请参阅 Eriksson 和 Hájek(2007 年)对基于偏好的概率解释的进一步批评。

投注分析使主观概率能够确定,只要代理人的投注倾向能够确定。从偏好中推导出的概率使它们能够确定,只要他或她的偏好是已知的。然而,代理人的完整偏好集是否能够确定,甚至对于他自己来说都不清楚。在确定性标准中,“原则上”的限定词可能需要给予很大的重视。预期效用表示几乎可以分析出代理人应该根据概率来指导行动 - 毕竟,这些概率是她自己的,并且它们被输入到预期效用公式中,以确定她的行动是否合理。因此,与理性决策标准的适用性显然是符合的。

3.3.4 正统贝叶斯主义,以及对理性信念的进一步限制

但它们是否作为一个好的指南?在这里,区分不同版本的主观主义是有用的。像德·芬内蒂那样的正统贝叶斯主义者认为,除了以下理性约束之外,主观概率没有其他限制:

  1. 符合概率计算的规则,并且

  2. 在面对新证据时更新概率的规则,称为条件化。具有概率函数 P1 的代理人,在确信某个证据 E(且没有更强的证据)后,应该转移到与 P1 相关的新概率函数 P2:

(条件化)P2(X)=P1(X∣E),前提是 P1(E)>0。

这是一种宽容的认识论,允许我们给通常被称为疯狂的信念状态分配概率 1 的值,同时坚持极端主观主义。

一些主观主义者还提出了进一步的合理性要求,即任何可能的事情(在适当的意义上)都被分配了正概率。这一观点得到了 Jeffreys(1939/1998)、Kemeny(1955)、Edwards 等人(1963)、Shimony(1970)和 Stalnaker(1970)等作者的支持。这种观点旨在捕捉一种开放的思维和对证据的响应。但是,也许令人意外的是,将概率 0.999 分配给这个句子统治宇宙的人可以被认为是理性的,而将概率分配为 0 的人被认为是非理性的。例如,Levi(1978)进一步反对这种合理性。

对于信念程度来说,概率的一致性起到了与普通的全有或全无信念一致的作用。即使是一个要求合理性的极端主观主义者也缺乏真理的类似物,即一些用于区分“真实”的概率分配和其他分配(如上面的 0.999)的标准,一些使概率分配对世界负责的方式。因此,主观主义者似乎需要更多的东西。

各种主观主义者提供了更多的观点。拉姆齐将部分信念的“逻辑”孤立为符合概率计算的行为,然后讨论了什么使得对一个命题的信念程度合理。在考察了几种可能的答案之后,他选择了一种侧重于意见形成习惯的答案——“例如,从毒蘑菇是黄色的这个意见出发,得出毒蘑菇是有害的这个意见的习惯”(50 页)。然后他问,对于一个有这种习惯的人来说,他应该具有的一个给定的黄色毒蘑菇是有害的概率是多少,他回答说“一般来说,它将等于实际上有害的黄色毒蘑菇的比例”(1990 年,91 页)。这与最近的一些提议(例如,van Fraassen 1984 年,Shimony 1988 年)相呼应,这些提议根据信念程度与相应的相对频率的匹配程度来评估——用行话说,它们的校准程度如何。由于相对频率遵守概率公理(有限可加性),人们认为追踪它们的理性信念也应该如此。[7]

然而,理性信念可能追踪各种事物。例如,我们经常依赖专家的意见。在医学问题上,我们咨询医生;在气象问题上,我们咨询天气预报员,等等。Gaifman(1988 年)为一个给定的代理人追踪的概率分配提出了“专家分配”和“专家概率”这两个术语:“仅仅知道 [专家] 分配将使代理人采用它作为他的主观概率”(193 页)。这个想法可以被编码如下:

(专家)P(A∣pr(A)=x)=x,对于所有定义了的 x。

其中‘P’是代理人的主观概率函数,‘pr(A)’是代理人视为专家的分配。例如,如果您将当地的天气预报员视为您当地天气的专家,并且她给明天下雨的概率分配了 0.1,那么您很可能会跟随她的意见:

P(下雨 ∣pr(下雨)=0.1)=0.1

更一般地,我们可以将整个概率函数视为代理人在一组指定命题上的指导。Van Fraassen(1989 年,198 页)给出了这个定义:“如果 P 是我的个人概率函数,那么对于命题家族 F,q 是关于 F 的专家函数,当且仅当对于家族 F 中的所有命题 A,P(A∣q(A)=x)=x。”

让我们为给定的理性代理定义一个通用的专家函数,该函数将以以下方式指导该代理的所有概率分配:关于所有命题的代理的专家函数。 van Fraassen(1984,1995a)在 Goldstein(1983)之后,认为代理的未来概率函数是该代理的通用专家函数。他在他的反思原则中奉行这个想法,其中 P 是代理的概率,Pt 是她在以后的时间 t 的函数:

对于所有定义了的 t,A 和 x,P(A∣Pt(A)=x)=x。

这个原则体现了理性所施加的“历时一致性”的某种要求。 van Fraassen 用一个“历时的”荷兰书籍论证(考虑在不同时间下下注的情况)来捍卫它,并通过将其违反类比为 Moore 悖论中所发现的那种实用的不一致性。

我们可以进一步。对于大类理性代理人,甚至可能是所有理性代理人,可能存在通用的专家函数。直接概率原理将相对频率函数视为所有理性代理人的通用专家函数;我们已经看到校准支持者对其的重要性。设 A 为一个事件类型,relfreq(A)为 A 的相对频率(在某个适当的参考类中)。那么对于任何具有概率函数 P 的理性代理人,我们有(参见 Hacking 1965):

对于所有 A 和所有定义了的 x,P(A∣relfreq(A)=x)=x。

Lewis(1980)在他的主要原则中(这里简化为 [8])提出了客观概率函数 ch 在所有理性初始信念中扮演类似的专家角色。

C(A∣ch(A)=x)=x,对于所有的 A 和所有的 x,其中定义了这个条件。

‘C’表示询问开始时代理人的‘ur’置信函数。这是一个理想化,确保代理人没有任何“不可接受”的证据,这些证据与 A 的机会无关。例如,一个理性的代理人如果某种方式知道一个特定的硬币抛掷结果是正面,那么肯定不需要分配

C(heads∣ch(heads)=12)=12。

相反,这个条件概率应该是 1,因为她拥有与结果“正面”相关的信息,这使得它的机会变得微不足道。其他专家原则肯定需要适当限定-否则它们将面临类似的反例。然而奇怪的是,主要原则是唯一一个在文献中引起不可接受证据担忧的专家原则。

我将很快谈到相对频率和机会。

最终的专家可能是真值函数-将所有真命题赋值为 1,将所有假命题赋值为 0 的函数。对其值的了解肯定应该超过对人类专家(包括自己未来的自己)、频率或机会赋予的值的了解。请注意,对于任何假定的专家 q,

P(A∣q(A)=x∩A)=1,对于所有的 A 和所有的 x,其中定义了这个概率。

— A 的真实性优先于专家可能说的任何事情。因此,上述所有提出的专家概率实际上应该被视为可推翻的。Joyce(1998)描绘了理性的代理人估计真值,寻求最小化其与概率分配之间的距离的度量,即最大化这些分配的准确性。他推广了 de Finetti(1974)的一个定理,证明了对于满足某些直观属性的任何距离度量,任何违反概率公理的代理人都可以通过遵守这些公理来更好地实现这个认识目标,无论世界如何变化。简而言之,非概率信念被概率信念所主导。这为有限域的概率主义提供了一个“非实用”的论证(与荷兰书和表示定理的论证相反)。Nielsen(2023)将 Predd 等人(2009)的一个相关准确性论证推广到任意大的域,但对准确性度量的条件有所不同。

这些关于主观概率的假设性约束中存在一些统一的主题。一个代理人的信念程度决定了她对某些量的估计:赌注的价值,或者更一般地说,赌博的可取性,或者各种“专家”的概率分配——人类、相对频率、客观机会或真值。然后,概率法则被认为是对这些估计的约束:被认为是最小化她在广义上的“损失”的必要条件,无论是货币上的损失,还是与这些专家的分配之间的距离有关的损失。

3.3.5 客观贝叶斯主义

我们逐渐对理性信念增加了越来越多的约束,这些约束据称是由理性要求而提出的。回想一下,卡尔纳普首先假设存在一个唯一的确认函数,然后放宽了这个假设以允许存在多个这样的函数。现在我们似乎正在朝相反的方向发展:从极其宽容的正统贝叶斯主义开始,我们正在逐步减少合理可接受的信念函数的类别。到目前为止,我们所接受的约束并没有特别以证据为导向。客观贝叶斯主义者认为,理性主体的信念在很大程度上是由她的证据决定的。

“很大程度上”有多大?界限并不明确,主观贝叶斯主义可以被看作是一种在观点谱上逐渐转变为客观贝叶斯主义的不确定区域。在谱的一端是一种极端形式的主观贝叶斯主义,根据这种观点,理性信念仅受概率计算(和条件化更新)的约束。在谱的另一端是一种极端形式的客观贝叶斯主义,根据这种观点,理性概率受到证据的唯一性约束-我们可以称之为唯一性论题。但是,客观贝叶斯主义者和主观贝叶斯主义者都可以采取较不极端的立场,通常也确实如此。例如,乔恩·威廉姆森(2010)是一个客观贝叶斯主义者,但不是一个极端主义者。他在概率计算的基础上增加了与证据校准的约束,并在基本结果之间进行模棱两可,特别是借鉴了最大熵的版本。因此,他的观点是经典解释及其由杰恩斯推广的后代。

3.4 频率解释

赌徒、精算师和科学家长期以来一直认识到相对频率与概率之间存在着密切的关系。频率解释假设最密切的关系是一致性。因此,我们可以将某个硬币出现“正面”的概率与在一系列投掷硬币的过程中出现“正面”的次数除以总投掷次数来进行等同。频率主义的一个简单版本,我们将其称为有限频率主义,以一种直接的方式将概率附加到有限参考类中的事件或属性上:

在有限参考类 B 中,属性 A 的概率是 A 在 B 中实际发生的相对频率。

因此,有限频率主义与经典解释在某种程度上具有某些结构上的相似之处,因为它对事件集合中的每个成员都给予相等的重视,仅仅计算有多少个“有利”的事件占总数的比例。然而,关键的区别在于,经典解释计算了给定实验的所有可能结果,而有限频率主义计算的是实际结果。因此,它对那些具有经验主义顾虑的人来说是友好的。它由文恩(1876 年)发展而来,在他对男性和女性出生比例的讨论中得出结论:“概率就是那个比例”(第 84 页,他的强调)[9]。有限频率主义在统计学和更广泛的科学中经常被默许或明确地假设。

有限频率主义给出了概率的操作性定义,它的问题就从那里开始。例如,正如我们希望允许我们的温度计可能校准不准确,从而给出错误的温度测量结果一样,我们也希望允许通过频率来测量概率的“测量结果”可能是误导性的,就像一个公平的硬币投掷 9 次中有 9 次正面朝上一样。更重要的是,这种误导性结果似乎已经融入了概率的概念之中。实际上,在许多情况下,误导性结果是可以保证的。从一个退化的情况开始:根据有限频率主义者的观点,一个从未被投掷过的硬币,因此没有任何实际结果,根本没有正面的概率;然而,一个从未被测量过的硬币并不因此缺乏直径。或许更令人不安的是,一个被投掷一次的硬币,无论其偏向如何,都会产生一个正面的相对频率,要么是 0,要么是 1。或者我们可以想象一个唯一的放射性原子,其在不同时间衰变的概率遵循连续的规律(例如指数规律);然而根据有限频率主义,它以概率 1 在实际发生的时间衰变,因为它的相对频率是 1/1。这些例子已经足够有名,以至于有了自己的名字,被称为“单一案例问题”。实际上,许多事件最自然地被视为不仅是不重复的,而且在强烈的意义上是不可重复的——2020 年总统选举、2019 年 NBA 季后赛的最后一场比赛、内战、肯尼迪的暗杀、宇宙早期历史中的某些事件等等。尽管如此,我们似乎自然而然地认为某些甚至所有这些事件都具有非极端的概率。 更糟糕的是,一些宇宙学家认为我们的宇宙是开放的还是封闭的(显然某些量子波动可能在原则上使其倾向于一方或另一方),但无论它是什么,它在最强烈的意义上都是“单例的”。

单例问题尤为引人注目,但我们实际上有一系列相关问题:“双例问题”,“三例问题”...每个被抛两次的硬币只能产生相对频率 0、1/2 和 1,无论其偏向如何...根据实际频率主义,每个被抛奇数次的硬币都是有偏的是一个分析真理。然而,无论 n 有多大,大小为 n 的有限参考类只能在某个“粒度”水平上产生相对频率 1/n。除此之外,这排除了无理数概率;然而我们最好的物理理论却说相反。此外,从某种意义上说,任何这些问题都可以转化为单例问题。假设我们抛一枚硬币一千次。我们可以将其视为一次一千次抛硬币实验的单次试验。然而,我们不希望承认这个实验以概率 1 产生其实际结果。

单个案例的问题在于有限的频率主义者无法看到其他人能看到的各种地方的中间概率。相反的问题也存在:频率主义者在其他人看不到的各种地方看到了中间概率。我们的世界有无数不同的实体,具有无数不同的属性。我们可以将它们分组成更多的对象集,并询问这些集合中各种属性的相对频率是多少。许多这样的相对频率将是中间的;有限的频率主义者会自动将它们与中间概率等同起来。但是,它们是否是真正的概率,而不仅仅是简单的计数,似乎取决于具体情况。在不同对象集之间的属性比率可能缺乏我们对概率所期望的那种模态力量。我属于由我自己、埃菲尔铁塔、圣莫尼卡海滩最南端的沙堡和珠穆朗玛峰组成的参考类。这四个对象中有两个小于 7 英尺,相对频率为 1/2;此外,我们可以轻松扩展这个类,保持这个相对频率(或者同样容易地不保持)。然而,如果说相对于这个参考类,我小于 7 英尺的概率是 1/2,那将是奇怪的,尽管说参考类中有 1/2 的对象小于 7 英尺是完全可以接受的(尽管无趣)。

一些频率学派(尤其是文恩 1876 年,赖兴巴赫 1949 年和冯·米塞斯 1957 年等人)在某种程度上回应了上述问题,开始考虑无限参考类,并将概率与其中事件或属性的极限相对频率进行了等同。因此,我们需要无限次试验的序列来定义这样的概率。但是,如果实际世界没有提供给定实验的无限次试验序列会怎么样呢?事实上,这似乎是常态,甚至可能是规则。在这种情况下,我们将概率与假设的或反事实的极限相对频率进行等同。我们要想象实际试验序列的假设无限延伸;如果序列被如此延伸,概率就是极限相对频率。因此,我们可以称之为假设频率主义解释:

参考类 B 中属性 A 的概率是 B 内 A 出现的极限相对频率的值,如果 B 是无限的。

注意,此时我们已经离开了经验主义。通过引入反事实,频率主义中注入了一种模态元素;而且,反事实可能涉及与实际情况完全不同的情况,甚至可能需要违反自然法则。(想象一下,要让我口袋里的硬币,只被抛掷了一次,被无限次抛掷——永远不会磨损,永远不会缺少愿意抛掷它的人!)此外,人们可能会想知道,这种反事实相对频率是否总是存在,或者是否存在事实来说明这种反事实相对频率。

限制相对频率,我们已经看到,必须相对于一系列试验进行相对化。这里存在另一个困难。考虑一个无限序列的抛硬币结果,可能是 H,T,H,H,H,T,H,T,T,...假设为了明确起见,对应的头部相对频率序列从 1/1,1/2,2/3,3/4,4/5,4/6,5/7,5/8,5/9,...开始,收敛到 1/2。通过适当重新排序这些结果,我们可以使序列收敛到我们喜欢的 [0, 1] 中的任何值。(如果这不明显,请考虑一下正整数中偶数的相对频率,直观上应该收敛到 1/2,但通过将偶数放在每四个位置上重新排序整数,可以使其收敛到 1/4,如下所示:1,3,5,2,7,9,11,4,13,15,17,6,...)当然,给出的抛硬币顺序可能有一些自然之处 - 例如,它们可能是时间顺序。但可能有不止一种自然排序。想象一下抛硬币发生在一辆来回在朝向西东的轨道上的火车上。那么从西到东的空间排序可能看起来非常不同。为什么应该优先选择一种排序方式?

对任何频率主义版本的众所周知的反对意见是,相对频率必须相对于一个参考类进行相对化。考虑一个我关心的关于自己的概率,比如我活到 80 岁的概率。我属于男性类、非吸烟者类、姓氏中有两个元音字母的哲学教授类,等等。可以想象,那些活到 80 岁的人的相对频率在(大多数)这些参考类中是不同的。那么,我活到 80 岁的概率是多少呢?似乎没有一个单一的频率主义答案。相反,有我的男性概率、我的非吸烟者概率、我的男性非吸烟者概率,等等。这是频率主义的所谓参考类问题的一个例子(尽管可以争论说其他解释也存在类似的问题 [10])。正如我们在前一段中所看到的,对于极限相对频率来说,这个问题只会更加复杂:概率必须不仅相对于一个参考类进行相对化,而且还必须相对于参考类中的一个序列进行相对化。我们可以称之为参考序列问题。

解决这个问题的开始是将我们的注意力限制在某种特定类型的序列上,这些序列具有某些理想属性。例如,有些序列的给定属性的极限相对频率不存在;因此,Reichenbach 排除了这些序列。Von Mises(1957)给出了一个更全面的限制,即他所称的集合——假设的无限序列,这些序列是指定实验的属性(可能的结果)的序列,满足某些要求。将一个位置选择称为一种有效指定的选择序列成员索引的方法,使得选择或不选择索引 i 最多取决于前 i-1 个属性。Von Mises 提出了这些公理:

收敛公理:任何属性的极限相对频率存在。

随机性公理:在一个集合 ω 中,每个属性的极限相对频率在由位置选择确定的任何无限子序列中都是相同的。

相对于集合 ω,属性 A 的概率被定义为在 ω 中 A 的极限相对频率。请注意,像 H、H、H 等这样的常数序列,在任何无限子序列中极限相对频率都相同,显然满足随机性公理。这对术语造成了一些压力 - 乍一看,这样的序列似乎与随机性无关 - 尽管可以肯定地说,即使在这样的序列中也希望分配概率。不管怎样,在冯·米塞斯理论中,随机性公理的作用与经典理论中的最大熵原理之间存在一种平行:两者都试图捕捉一种特定的无序概念。

集体是抽象的数学对象,没有经验实例化,但冯·米塞斯提出了它们来解释可重复随机实验的实际结果序列中相对频率的稳定性。教堂(1940 年)将位置选择的概念精确地表述为递归函数。然而,参考序列问题仍然存在:概率必须始终相对于一个集体,对于诸如“正面”之类的属性,存在无限多个概率。冯·米塞斯接受了这个结果,并坚持认为概率的概念只有相对于一个集体才有意义。特别是,他认为单个案例的概率是无意义的:“即使我们详细了解一个人的生活和健康状况,我们也无法对他的死亡概率做出任何判断。当涉及到单个人时,‘死亡概率’这个词对我们来说根本没有意义”(11)。一些批评家认为,这只是忽视了单个案例的问题,而不是解决了它。请注意,冯·米塞斯严重低估了他理论的承诺:在他看来,当涉及到一百万人、十亿人或任何有限数量时,“死亡概率”这个词也根本没有意义——毕竟,集体是无限的。更一般地说,冯·米塞斯的理论似乎具有令人不悦的后果,即概率陈述在现实世界中从未有过意义,因为显然所有属性序列都是有限的。

让我们看看频率解释如何符合我们的充分性标准。有限相对频率当然满足有限可加性。在有限的参考类中,只有有限多个事件可以发生,因此只有有限多个事件可以具有正的相对频率。在这种情况下,可数可加性在某种程度上是满足的:无限求和中除了有限多个项外,其余项都为 0。极限相对频率违反了可数可加性(de Finetti 1972,§5.22)。事实上,极限相对频率的定义域甚至不是一个域,更不用说是一个 σ 域(de Finetti 1972,§5.8)。因此,这种相对频率不能提供 Kolmogorov 公理的可接受解释。有限频率主义在满足可确定性标准方面没有问题,因为有限相对频率原则上很容易确定。而极限相对频率则无法满足这一点。相反,任何有限的试验序列(毕竟,这是我们所看到的全部)对无限序列的极限没有任何约束;即使我们在可确定性标准中对“原则上”的概念玩得多么随意,实际有限序列对无限假设序列的极限也没有任何约束。

似乎频率解释符合频率准则的适用性。有限频率主义非常符合,而假设频率主义则以错误的方式符合。如果说有什么不同的话,那就是有限频率主义将概率与频率之间的联系过于紧密,正如我们已经观察到的那样。一个被投掷一百万次的公平硬币非常不可能正好一半的时间朝上;而一个被投掷一百万零一次的硬币更不可能如此!关于有限相对频率的事实应该作为证据,但不是决定性的证据,用于相关概率分配。假设频率主义未能将概率与有限频率联系起来。当然,它将它们与极限相对频率联系起来,但同样过于紧密:即使在无限序列中,这两者也可能分离。(即使公平硬币可能永远朝上,尽管这种情况非常不可能发生。)当然,科学对有限频率非常感兴趣,事实上,与之相关的工作是统计学的主要内容。它是否对高度理想化的、假设性的实际序列扩展以及其中的相对频率感兴趣是另一回事。对于有限频率主义和假设频率主义的更广泛批评,请参见 Hájek(1997)和 Hájek(2009),以及 La Caze(2016)。

3.5 倾向性解释

像频率解释一样,倾向解释将概率视为现实世界中实体的客观属性。概率被认为是一种物理倾向或倾向,或者是某种类型的物理情况产生某种结果或产生长期相对频率的倾向。

虽然波普尔(1957)通常被认为是倾向解释的先驱,但我们在皮尔斯(1910,79-80)的著作中已经找到了关键思想:“那么,我要定义这样一个说法的意义,即掷骰子从骰盒中掷出的结果是三的倍数的概率是三分之一。这个说法意味着骰子有一个确定的“将要发生的事情”;而说骰子有一个“将要发生的事情”就是说它有一个属性,与人的任何习惯相似。” 一个人的习惯是倾向的典型例子;根据皮尔斯的说法,骰子落在 3 或 6 的概率是类似的倾向。我们可以想象各种习惯以不同程度存在,衡量它们的不同强度。类似地,骰子落在不同方式上的倾向度量了它落在不同方式上的倾向强度。

皮尔斯继续说:“为了使骰子的“将要发生的事情”的全部效果得到表达,有必要让骰子从骰盒中进行无休止的掷骰子”,他想象了问题中事件类型的相对频率从 1/3 的一侧振荡到另一侧。这再次预示了波普尔的观点。但一个重要的区别是,皮尔斯将倾向视为骰子本身的属性,而波普尔将倾向归因于整个掷骰子的机会设置。

Popper (1957)的动机是为了理解量子力学中出现的单例概率归因,例如“这个镭原子在 1600 年内衰变的概率是 1/2”。他在(1959a)中进一步发展了这个理论。对他来说,某种结果的概率 p 是可重复实验的倾向性,以极限相对频率 p 产生该类型结果。例如,当我们说抛掷硬币时,硬币以 1/2 的概率朝上,我们的意思是我们有一个可重复的实验设置——抛掷设置,它有倾向性产生一系列结果,其中极限相对频率为 1/2。这种立场过于依赖极限相对频率,根据一些批评者的观点,有可能陷入冯·米塞斯式的频率主义。另一方面,Giere (1973)明确允许单例倾向性,没有提到频率:概率只是可重复实验设置产生结果序列的倾向性。然而,这与 Popper 的问题相反:那么,我们如何获得概率和频率之间的所需联系呢?

因此,按照 Gillies (2000a, 2016)的观点,区分长期倾向性理论和单例倾向性理论是有用的:

长期倾向性理论是指将倾向性与可重复条件相关联,并将其视为在这些条件的长系列重复中产生频率与概率近似相等的倾向性。单例倾向性理论是指将倾向性视为在特定场合上产生特定结果的倾向性(2000a, 822)。

Hacking(1965)和 Gillies 提出了长期(虽然不是无限长期)的倾向性理论。Fetzer(1982, 1983)和 Miller(1994)提出了单个案例的倾向性理论。波普尔在后来的作品(1990)中也提出了这样的理论,他认为倾向性是“整个物理情境以及情境变化的特定方式的属性”(17)。需要注意的是,根据我们考虑的理论类型,‘倾向性’是完全不同的事物。根据长期理论,倾向性是产生具有特定值的相对频率的倾向,但倾向性本身并不由概率值来衡量;根据单个案例的理论,倾向性是由概率值来衡量的。例如,根据波普尔早期的观点,一个公正的骰子有一个倾向性,即以长期相对频率 1/6 的概率掷出‘3’。1/6 的小值并不能衡量这种倾向性。另一方面,根据 Giere 的观点,骰子有一个较弱的倾向性,即以 1/6 的概率掷出‘3’。1/6 的值可以衡量这种倾向性。

似乎那些将倾向性与频率联系起来的理论并没有提供一个可接受的概率计算解释,原因与相对频率相同。单例倾向性理论是否遵守概率计算尚不清楚。可以确信的是,可以规定它们遵守概率计算,或许将这一规定作为倾向性的隐含定义的一部分。然而,仍然需要证明这些东西确实存在——规定巫师是什么并不足以证明巫师的存在。事实上,像波普尔所说的那样,声称实验安排有倾向性产生特定结果的极限相对频率,就预设了这种安排的运作具有某种稳定性或一致性(因为在一个适当不稳定的安排中,极限将不存在)。但这是休谟所争论的那种“自然一致性”的预设,既不能先验地知道,也不能经验地知道。现在,可以引用极限定理——所谓的“大数定律”——其大致内容是,在适当的条件下,这些极限相对频率几乎肯定存在,并且等于单例倾向性。然而,这些定理做出了一些假设(例如,试验是独立且同分布的),其真实性也无法知道,只能假定。

批评家们说,问题的一部分在于我们对于概率的倾向不了解足够,以便裁决这些问题。这个抛硬币的安排有某种特性,以至于这个硬币会以某种长期频率落地正面。但正如 Hitchcock(2002)指出的那样,“将这个特性称为某种强度的‘倾向’并不能很好地说明这个特性是什么。” 换句话说,倾向解释被指责为空洞的概率解释,就像莫里埃的“催眠力量”(Sober 2000, 64)一样。同样,Gillies 反对单个案例的倾向,理由是关于它们的陈述是不可测试的,并且它们是“形而上学而不是科学的”(825)。一些人甚至可能对长期倾向提出同样的指责,因为它们据说与可测试的相对频率不同。

这表明倾向解释在满足适用于科学的标准方面存在困难。一些倾向理论家(例如 Giere)将倾向比作科学领域的物理量,例如电荷。但 Hitchcock 观察到这个类比是误导性的。我们只能通过经验调查来确定电荷的一般特性-它有两种类型,同性电荷相斥等等。然而,什么样的调查可以告诉我们倾向是否是非负的、归一化的和可加的呢?(另见 Eagle 2004。)

或许更有前途的是,倾向性被认为在某些理论角色中发挥作用,并且这些角色对它们的行为方式施加了限制,从而决定了它们可能的行为方式(以 Ramsey/Lewis/‘Canberra plan’方法为例,参见 Lewis 1970 或 Jackson 2000)。问题在于,这些角色可能会拉扯向相反的方向,过度限制了问题。根据某些人的说法,第一个角色限制它们遵守概率计算(具有有限可加性);根据其他人的说法,第二个角色限制它们违反概率计算。

一方面,据说倾向性限制了理性主体的信念程度或置信度。回想一下“适用于理性信念”的标准:解释应该阐明概率在限制理性主体置信度方面的作用。倾向性的一个假设角色是由 Lewis 的“主要原则”所规范的。(见第 3.3 节。)主要原则支持了一个论证(Lewis 1980),即无论它们是什么,倾向性都必须遵守通常的概率计算(具有有限可加性)。毕竟,有人认为,受它们指导的理性置信度是如此。

另一方面,Humphreys(1985)提出了一个有影响力的论证,即倾向性不遵守 Kolmogorov 的概率计算。其思想是概率计算暗示了贝叶斯定理,该定理允许我们反转条件概率:

P(A∣B)=P(B∣A)⋅P(A)P(B)

然而,倾向性似乎是“因果倾向”的度量,正如因果关系是非对称的一样,这些倾向性据说不会发生逆转。假设我们有一种测试某种疾病的方法,偶尔会出现假阳性和假阴性。一个患病的患者可能有(非平凡的)倾向给出阳性的测试结果,但似乎没有意义说一个给定的阳性测试结果有(非平凡的)倾向来自一个患病的患者。因此,我们有一个论证,无论它们是什么,倾向性都不能遵守通常的概率计算。正如众所周知的“亨弗里斯悖论”,这实际上是反对任何形式的倾向性解释的论证,其中一个定理是:

(∗) 如果给定 A 的情况下 B 的概率存在,那么给定 B 的情况下 A 的概率也存在,

然而,无论人们如何理解这些条件概率,这个论点都促使 Fetzer 和 Nute(在 Fetzer 1981 年)提出了一个“概率因果演算”,它与 Kolmogorov 的演算看起来截然不同 [11]。但是,正如 Lyon(2014 年)指出的那样,人们可以更保守地回应。例如,Rényi 对原始条件概率的公理化并没有将(∗)作为一个定理,因此尽管 Humphreys 的论点存在,倾向性可能仍然符合它。尽管如此,Lyon 提出了“倾向性解释的一个更一般的问题。有各种各样的事件对之间没有倾向性关系,而 Kolmogorov 的、Popper 的和 Rényi 的三个公理系统有时会强制它们之间存在条件概率。这并不是说倾向性理论者不能采用其他公理系统的论点,但这是说这三个主要竞争者不可行”(124)。

或许所有这些都表明“倾向性”的概念是分叉的:一方面,有些倾向性与相对频率和理性置信度有密切联系,并遵守通常的概率演算(具有有限可加性);另一方面,有些因果倾向性的行为则完全不同。在这种情况下,概率的解释将比以前认识到的更多。

3.6 最佳系统解释

传统上,概率哲学家们承认概率的五种主要解释——经典解释、逻辑解释、主观解释、频率解释和倾向解释。但最近,所谓的最佳系统解释的机会越来越受欢迎和重要。虽然它们与频率主义的观点有些相似,但它们避免了频率主义的一些主要缺陷;虽然它们有时被归类为倾向解释,但它们实际上是相当不同的。因此,它们应该得到单独的处理。

最佳系统方法是由刘易斯(1994b)首创的。他对机会的分析基于他对自然法则的解释(1973),而这又是基于拉姆齐(1928/1990)的解释。根据刘易斯的观点,自然法则是宇宙最佳系统化的定理——最能结合简单性和强度这两个理论优点的真实理论。这些优点是相互权衡的。一个理论很容易简单但不强大,因为它说得很少;一个理论很容易强大但不简单,因为它将许多不同的事实结合在一起。最佳理论在简单性和强度之间达到最佳平衡——简而言之,它是最经济的真实理论。

到目前为止,还没有提到机会。现在,我们允许概率论进入竞争。我们还没有处于谈论这些理论是否真实的位置。相反,让我们引入另一个理论优点:适应性。根据理论的观点,宇宙的实际历史越有可能发生,它就越能适应那个历史。现在,理论根据它们如何结合简单性、强度和适应性来竞争。获胜理论的定理就是自然法则。其中一些法则可能是概率性的。机会就是由这些概率性法则决定的概率。

根据 Lewis(1986b)的观点,中间概率与决定论不相容。Loewer(2004)认同中间倾向与决定论不相容,将其理解为基本上是动态的:“它们指定了一个状态倾向于引起另一个状态的程度”(15)。但他认为,最好按照 Lewis 的最佳系统原理来理解概率,并且没有理由将其限制在动态概率上。特别是,最佳系统概率也可以与初始条件相关联:在动态定律中添加一个概率分配或分布,对初始条件进行概率分配,可以在相对简单的代价下大大增强力量。科学提供了具有此类初始条件概率的确定性理论的重要示例。将所谓的微正则分布添加到牛顿定律中(以及假设远古时期的熵较低)可以得到整个统计力学;将所谓的量子平衡分布添加到波姆的动态定律中可以得到标准量子力学。事实上,与实际科学的联系是最佳系统分析的一个卖点之一。有关更多卖点,请参见 Schwarz(2016)。

乍一看,最佳系统分析似乎在我们的适用性标准上得分很高。它们根据定义是可接受的:概率是由概率定律(而不是由其他形式主张的定律)决定的。原则上可以确定概率的值,因为它们随附于宇宙中实际发生的事情(尽管“原则上”承担着沉重的负担)。通过“适应性”的作用,可以确保对频率的适用性。Schwarz(2014)提供了主要原则的证明,这可以被视为支持最佳系统分析适用于合理信念和合理决策的基础。我们刚刚提到了该解释对科学的适用性。

这种方法解决了或者至少缓解了一些频率主义的问题。可以在单个案例的问题上取得进展。通过插入其他数量(例如原子序数)的一系列设置,可以确定在不同时间间隔内稀有原子衰变的机会,这可能由一种更普遍的功能定律决定,其中通过插入其他数量(例如原子序数)的一系列设置为更广泛范围的原子给出衰变机会。而且,简单性可能有利于这种功能定律是连续的,因此可以分配非理性值的概率。此外,如果不够普遍,那么在不同对象集合之间的属性的裸比率将不符合机会的条件,因为在没有足够的简单性增益的情况下,分配它们概率的理论将失去太多的简单性。

然而,频率主义仍然存在一些其他问题,并出现了一些新问题,其中包括对刘易斯法则本身的更基本问题。其中一些问题在某种程度上是刘易斯特定表述的问题。批评者(例如 van Fraassen 1989)质疑“平衡”简单性和强度的相当模糊的概念,它们本身就有些模糊。但可以提供一些技术性的故事(例如信息论)来明确它们。刘易斯本人担心这种平衡的汇率可能部分取决于我们的心理学,如果是这样,那么法则本身就取决于我们的心理学,这是一种令人不悦的唯心主义观念。但他坚持认为,只要“自然是友好的”,并且有一个理论在任何合理的平衡标准下始终是最有力的竞争者,那么这种威胁就不严重。而且,也许技术工具可以在这里提供一些客观性。(有关此类工具的示例,请参见第 4 节。)

更具说明性的是对简洁性是相对于语言的担忧,事实上,任何理论都可以给出最简单的规范:将其简称为 T! 路易斯回应说,一个理论的简洁性必须根据其在一个规范语言中的规范来判断,在这个语言中,所有的谓词都对应于自然属性。因此,“绿色”可能是合格的,但“grue”显然不是。(参见 Goodman 1955 年。)因此,我们的缩写必须根据这样一种语言来展开,其中它的真正复杂性将被揭示出来。但是,这现在涉及到对自然和非自然属性之间的实质性形而上学承诺,这是一些经验主义者(例如 van Fraassen 1989 年)认为是令人反感的。

进一步的问题出现在处理概率定律的细化中。同样,其中一些问题可能是由于路易斯的特定表述方式。Elga(2004 年)观察到,在各种无限宇宙中,路易斯关于契合的概念是有问题的——想象一下一个硬币投掷的无限序列。一开始,似乎任何一个合理的候选理论都会将实现的特定无限序列赋予概率零,这个理论将头的概率视为中间值,而试验是独立的。Elga 还指出,用无穷小概率来解决这个问题存在技术上的困难。然而,也许我们只需要对“契合”有一个不同的理解——也许可以理解为“典型性”(Elga),或者更接近统计学家在“卡方拟合度检验”中所使用的那种理解(Schwarz 2014 年)。

Hoefer(2007)根据其中一些问题修改了 Lewis 的最佳系统解释。Hoefer 将“最佳”理解为“对我们最好的”,涵盖了我们感兴趣的规律,使用科学和日常生活的语言,而没有赋予自然属性任何特殊特权。此外,“最佳系统”现在直接涉及概率,而不是法则。因此,例如,可能与火车的准时性相关,而不假设有任何相关的法则。Hoefer 在理解“适合”时遵循 Elga 的观点,即“典型性”。强度是最佳系统概率函数整体领域大小的问题。简洁性是指优雅统一和对像我们一样的存在友好。因此,Hoefer 在他的意义上接受了概率的以代理人为中心的性质,并将其视为由主要原则捕捉到的对他们的信任引导作用至关重要。这就是他的解释如何满足“适用于理性信念”的标准。

然而,对于刘易斯的解释/原理来说,还有一些其他问题可能更深入,更普遍地威胁到最佳系统分析,并且这些问题是频率主义幽灵的症状,仍然悬浮在这些分析背后。我们看到的频率主义问题中,有一个问题直接打击了试图将概率归约为结果模式属性的任何尝试的核心。由于其概率性质,这些结果可能对真实概率产生误导。对于任何合理的分类,这对于单次事件尤为明显。无论我们的宇宙是开放的还是封闭的,该结果都可能与任何潜在的中间概率相兼容。然而,这一点是普遍的,无论概率模式有多么普遍。可以合理地认为,硬币在 10 次投掷中出现 9 次正面与任何潜在的中间正面概率相兼容;依此类推。实例化的结果模式可能对真实概率的指导作用很差。(有关反对频率主义的进一步论证,请参见 Hájek 2009,这些论证也适用于最佳系统解释。)

另一种表达这种关切的方式是,最佳系统解释将概率的理想认识论误认为其形而上学(尽管请参见刘易斯在 1994 年坚称这不是这样)。这些解释单独提出了三个理论美德,人们可能会想为什么只是这三个,并将一个理论的概率最大化。但是,一个概率世界可能对于最好的理论化是固执的:自然可能是不友善的。

4. 结论:最近的趋势,未来的前景

从前面的内容可以清楚地看出,在概率的解释方面仍有许多工作要做。我们所调查的每种解释似乎都捕捉到了一些关键的洞察力,但却未能完全公正地对待这个概念。也许关于概率的完整故事是一个拼凑而成的东西,其中有部分重叠的片段和关于它们应该如何相互关联的原则。从这个意义上说,上述解释可以被视为互补的,尽管确实每个解释可能需要进一步的完善。我个人认为,我们将保留物理、逻辑/证据和主观概率的不同概念,并在它们之间建立丰富的联系。

有进一步迹象表明,古典概率和逻辑概率的复兴,特别是无差别原则和最大熵原则,得到了巴黎和文科夫斯卡(1997)、马赫(2000、2001)、巴尔萨和约翰斯(2001)、诺瓦克(2010)、怀特(2010)和佩蒂格鲁(2016)等作者的支持。然而,Rinard(2014)认为,即使允许不精确的概率,无差别原则也会导致不连贯性。Eva(2019)将该原则作为对形式为“我对 p 比对 q 更有信心”或“我对 p 和 q 同样有信心”的比较概率的约束进行了复兴。这反过来展示了另一个近期的趋势:对比较概率的兴趣增加了。

在这里,信息论和复杂性理论的进展也可能是相关的。信息论使用概率来定义特定事件中的信息,随机变量的不确定度以及随机变量之间的互信息(Shannon 1948,Shannon&Weaver 1949)。这个理论已经广泛发展,以提供复杂性、最佳数据压缩和编码的解释(Kolmogorov 1965,Li 和 Vitanyi 1997,Cover 和 Thomas 2006;有关更多详细信息,请参见有关信息的条目)。它被应用于各个科学领域,从计算机科学和通信理论的自然领域,到物理学和生物学。在这些领域解释信息与解释概率密不可分:每个概率概念都有一个相应的信息概念。例如,Scarantino(2015)提供了一个与逻辑解释或客观贝叶斯解释相兼容的生物学中的“自然信息”解释,而 Kraemer(2015)则提供了一个基于有限频率解释的解释。

信息理论在随机性研究中也被证明是富有成果的(科尔莫戈洛夫 1965 年,马丁-勒夫 1966 年),这显然与概率的概念密切相关-参见 Eagle(2016 年)和关于机会与随机性的条目。对随机性理解的改进反过来应该对频率解释(回想一下冯·米塞斯在他对“集体”的定义中对随机性的呼吁)和倾向性解释(特别是那些与频率明确相关的解释)有影响。鉴于第 3.5 节中勾勒出的倾向性与因果关系之间的明显联系,强大的因果建模方法在这里也应该是富有成果的。更一般地说,图形因果模型理论(也称为贝叶斯网络)使用有向无环图来表示系统中的因果关系。(参见 Spirtes,Glymour 和 Scheines 1993 年,Pearl 2000 年,Woodward 2003 年。)图形和系统变量的概率与因果马尔可夫条件相协调,这是 Reichenbach 的口号“没有因果关系就没有相关性”的一个复杂版本。(有关更多详细信息,请参见因果模型的条目。)因此,每种对概率的理解都有一个相应的对因果网络的理解。

关于机会的最佳系统解释,我注意到“简单性”和“强度”究竟是什么并不太清楚,以及它们如何平衡。也许统计学和计算机科学的见解在这里可能有所帮助:统计模型选择方法,特别是“曲线拟合”问题,试图表征简单性及其与强度的权衡-例如,阿卡奇克信息准则(见 Forster 和 Sober 1994 年),贝叶斯信息准则(见 Kieseppä 2001 年),最小描述长度理论(见 Rissanen 1999 年)和最小消息长度理论(见 Wallace 和 Dowe 1999 年)。

物理概率对科学研究变得更加关键。概率不仅用于描述科学理论受证据支持的程度,而且在理论本身的内容中起着重要作用。这导致了对这些理论中概率的丰富哲学解释。例如,量子力学在基本层面上具有物理概率。这些概率的解释与理论本身的解释相关(请参阅有关量子理论中哲学问题的条目)。统计力学和进化理论具有非基本的客观概率。它们是真正的机会吗?我们如何解释它们?请参阅 Strevens(2003)和 Lyon(2011)进行讨论。然而,Schwarz(2018)认为这些概率可以且应该不加解释地保留。Loewer(2012,2020)提出,我们世界的 Lewisian 最佳系统由“Mentaculus”组成-宇宙的完整概率地图。这是 Albert(2000)的套餐:

  • 统计力学的基本动力学定律;

  • 宇宙最初处于微观状态 M(0),其熵很小(“过去假设”);

  • 并且有一项法律规定了在实现 M(0)的微观状态上的均匀概率分布。

关于物理概率的另一个持续争论是关于机遇是否与决定论相容——参见 Schaffer(2007),他是一位不相容论者,以及 Ismael(2009)和 Loewer(2020),他们是相容论者。Handfield 和 Wilson(2014)认为,机遇的归因是与上下文相关的,根据相关的“证据基础”而变化。这捕捉到了在一个决定论的宇宙中,从某种意义上说,所有的机遇都是极端的思想,同时对其他相容论使用机遇的方式做出了公正的评价。有关这一争论的概述,请参见 Frigg(2016)。相关地,一种重要的客观概率方法已经流行起来,这种方法被称为任意函数方法。它起源于庞加莱(1896),是一种用于确定具有混沌动力学规律的某些系统的概率函数的数学技术,该规律将输入条件映射到结果。粗略地说,结果的概率对各种初始条件的概率相对不敏感——想象一下,轮盘赌的结果的概率显然不取决于轮盘是如何旋转的,有时猛烈地旋转,有时微弱地旋转。请参见 Strevens(2003, 2013)对这种方法的详细处理。

主观概率理论也在蓬勃发展——事实上,在过去几十年中,它一直是所有解释中增长最快的领域,这要归功于形式认识论的蓬勃发展。对于我将简要提到的每个主题,我只能引用一些代表性的作品。

特别是自从 Joyce(1998)以来,对于各种贝叶斯规范的准确性论证一直具有影响力。它们包括对条件化的论证(Greaves 和 Wallace 2006,Briggs 和 Pettigrew 2020),反思原则(Easwaran 2013)和主要原则(Pettigrew 2016)的论证。然而,Mahtani(2021)认为,用来支持准确性方法的数学定理并不能证明概率主义。这些研究领域仍在不断发展。这些规范本身也受到了进一步的关注,例如 Schoenfield(2017)对条件化的研究,以及 Hall(1994,2004),Ismael(2008)和 Briggs(2009)对主要原则的研究。

然而,对于某些问题,贝叶斯建模似乎不够细致。最近一个蓬勃发展的领域涉及建模一个代理人的自我定位置信度,涉及她是谁或现在是什么时间。这些置信度的内容通常被认为比仅仅是命题更丰富(被视为可能世界的集合);相反,它们是更精细的命题(集合的中心化世界——参见 Lewis 1979)。这反过来对更新规则产生了影响,特别是对条件化提出了质疑——参见 Meacham(2008)。所谓的睡美人问题(Elga 2000)在这方面引发了很多讨论。请参阅 Titelbaum(2012)以获得对这类问题的全面研究和方法,Titelbaum(2016),以及关于自我定位信念的条目以获取文献综述。这些仍然是研究的有益领域。

另一方面,贝叶斯建模在另一种意义上被认为过于微妙。将人类(而不是理性代理人)描绘为具有无限精确实数的信念程度在心理上似乎是不现实的。因此,人们一直在尝试“人性化”贝叶斯主义,这一研究方向正在蓬勃发展。例如,对不精确概率和不精确决策理论的研究蓬勃发展,其中信念不必是精确的数字,例如,它们可以是数字集合或区间。请参阅 http://www.sipta.org/以获取该领域的最新研究。这与最近关于不精确概率是否合理所做的工作相呼应——Hájek 和 Smithson(2012)以及 Isaacs、Hájek 和 Hawthorne(2022)支持这一观点,而 Schoenfield(2017)则持相反观点。辩论仍在继续。

同样,人类遵守概率计算的所有定理也是不可信的——我们在各种方面都是不连贯的。过去几十年还进行了关于不连贯程度的研究——衡量违背概率计算的程度,包括 Zynda(1996),Schervish,Seidenfeld 和 Kadane(2003),De Bona 和 Staffel(2017,2018)以及 Staffel(2019)。Lin(2013)认为,传统认识论对于未达到贝叶斯理想的人类的信念概念是合适的,但他们仍然可能遵守各种可以得到贝叶斯认可的信念规范。他模拟了日常实践推理,提供了一种定性信念和欲望的决策理论和表示定理。Easwaran(2016)认为人类确实具有全有或全无的信念,但为这些信念提供了一种工具主义的理由。

人们彼此意见不合也是生活中的事实。当一个代理人与一个认识论同行在某个主张上意见不合时,她应该如何修改她的信念(如果需要的话)?认识论这个主题的文献非常丰富(参见 Kopec 和 Titelbaum(2016)的调查以及关于意见不合的条目),它与概率的解释有重要的联系。直观上,我们觉得与一个认识论同行的意见不合在理性上要求我们将自己的观点朝着他们的方向移动,因为与同行的意见不合似乎是证明我们在评估自己的初步证据时犯了错误。正如 Kelly(2010)所争论的那样,这种“协调主义”的直觉似乎将我们承认概率的证据解释,共同的证据赋予争议主张一个独特的概率。(关于异议,请参见 Schoenfield 2014 和 Titelbaum 2016;关于唯一性命题的辩护,请参见 Horowitz 和 Dogramaci 2016。)这种直觉似乎也将我们承认概率 enkrasia:即我们的信念受制于我们对证据概率的态度,就像 Principal Principle 将我们的信念受制于我们对机会的态度一样。(参见 Christensen 2013 和 Elga 2010 关于概率 enkrasia 原则的版本。)让我们承认,与同行在某个主张上意见不合是证明我们在这个主张上犯了错误的证据。只有当我们对正确评估证据的方式的态度限制了我们对主张的态度时,这才会影响我们对它的观点。然而,概率 enkrasia 已经受到批评(参见 Williamson 2014;Lasonen-Aarnio 2015)。

因此,我们回到了起点。经典的和逻辑/证据解释试图捕捉一种客观的概率概念,它衡量证据支持关系。主观解释的早期支持者给了我们一种高度宽容的理性信念概念,只受概率计算的限制。较不自由的主观主义者增加了进一步的理性约束,信念受制于对物理概率和证据概率的态度,甚至到了唯一性的程度。我们在一开始确定的三种概率概念:认识论、信心程度和物理概率,最终会趋于一致。未来的研究无疑将进一步探索它们之间的关系,以及它们如何为生活提供指导。

推荐进一步阅读

Kyburg(1970)包含了 1970 年之前关于概率和归纳的大量文献。在 Macmillan 哲学百科全书的“概率”一章中,可以找到 1967 年之前的参考文献。Earman(1992)和 Howson 和 Urbach(1993)有大量的参考文献,并详细介绍了贝叶斯主义的理论。Hájek 和 Hitchcock(2021 [其他互联网资源])提供了一个更近期和广泛的注释参考书目,涵盖了本条目中讨论的所有概率解释。Skyrms(2000)是概率哲学的一本优秀入门书。Von Plato(1994)在技术上要求更高,更加注重历史,还有另一个广泛的参考书目,其中提到了上个世纪概率论发展的许多里程碑。Fine(1973)仍然是对概率的各种基础问题进行深入调查和贡献的高度复杂的综述,重点是解释。对主要解释的最新哲学研究包括 Childers(2013),Gillies(2000b),Galavotti(2005),Huber(2019)和 Mellor(2005)。Hájek 和 Hitchcock(2016)是一本关于与概率相关的哲学问题的原创综述文章集。第四部分包括对大多数主要概率解释的章节。它还包括概率的历史、科尔莫哥洛夫的形式主义和替代方法,以及概率在科学和哲学中的应用。Joyce(2011)是对主观贝叶斯主义的全面调查;Titelbaum(2022)是一本广泛而易于理解的贝叶斯认识论入门书。Hájek 和 Lin(2017)对贝叶斯认识论和传统认识论之间的各种相似和不相似之处进行了调查。 Knauff 和 Spohn(2021)是一本关于合理性许多主题的综合开放获取手册;Hájek 和 Staffel(2021)的章节详细阐述了本条目对主观概率的讨论中提出的一些问题。Eagle(2010)是一本有价值的文集,收录了许多重要的概率哲学论文,并进行了详细而深入的批判性讨论。Billingsley(1995)和 Feller(1968)是关于数学概率理论的经典而高级的教材。Ross(2013)则较为初级,并且有很多例子。

Bibliography

  • Albert, D., 2000, Time and Chance, Cambridge, MA: Harvard University Press.

  • Arnauld, A., 1662, Logic, or, The Art of Thinking (“The Port Royal Logic”), tr. J. Dickoff and P. James, Indianapolis: Bobbs-Merrill, 1964.

  • Bacon, A., 2014, “Giving Your Knowledge Half A Chance”, Philosophical Studies, 171 (2): 373–397.

  • Bartha, P. and R. Johns, 2001, “Probability and Symmetry”, Philosophy of Science, 68 (Proceedings): S109–S122.

  • Bell, E. T., 1945, The Development of Mathematics, 2nd edition, New York, McGraw-Hill Book Company.

  • Bertrand, J., 1889, Calcul des Probabilités [Calculus of Probabilities], Paris, France: Gauthier-Villars.

  • Billingsley, P., 1995, Probability and Measure, 3rd edition, New York: John Wiley & Sons.

  • Briggs, R., 2009, “The Anatomy of the Big Bad Bug”, Noûs, 43 (3): 428–449. doi:10.1111/nous.12258

  • Briggs, R. A., and R. Pettigrew, 2020, “An Accuracy-Dominance Argument for Conditionalization”, Noûs 54 (1): 162–181, doi:10.1111/nous.12258

  • Buchak, L., 2016, “Decision Theory”, in Hájek and Hitchcock (eds.) 2016, 789–815.

  • Carnap, R., 1950, Logical Foundations of Probability, Chicago: University of Chicago Press; 2nd edition, 1962.

  • –––, 1952, The Continuum of Inductive Methods, Chicago: University of Chicago Press.

  • –––, 1963, “Replies and Systematic Expositions”, in The Philosophy of Rudolf Carnap, P. A. Schilpp, (ed.), La Salle, IL: Open Court, 859–1013.

  • Childers, T., 2013, Philosophy and Probability, Oxford University Press.

  • Christensen, D., 2010, “Rational Reflection”, Philosophical Perspectives, 24 (1): 121–140.

  • Church, A., 1940, “On the Concept of a Random Sequence”, Bulletin of the American Mathematical Society, 46: 130–135.

  • Cover, T. M., and J. A. Thomas, 1991, Elements of Information Theory, New York: John Wiley & Sons, Inc.

  • Cozman, F. G., 2016, “Imprecise and Indeterminate Probabilities”, in Hájek and Hitchcock (eds.) 2016, 296–311.

  • De Bona, G., and J. Staffel, 2017, “Graded Incoherence for Accuracy Firsters”, Philosophy of Science, 284 (2): 189–213.

  • –––, 2018, “Why Be (Approximately) Coherent?”, Analysis, 78 (3): 405–415.

  • de Finetti, B., 1937, “La Prévision: Ses Lois Logiques, Ses Sources Subjectives”, Annales de l’Institut Henri Poincaré, 7: 1–68; translated as “Foresight. Its Logical Laws, Its Subjective Sources”, in Studies in Subjective Probability, H. E. Kyburg, Jr. and H. E. Smokler (eds.), Robert E. Krieger Publishing Company, 1980, 55–118.

  • –––, 1972, Probability, Induction and Statistics, New York: Wiley.

  • –––, 1990 [1974], Theory of Probability (Volume 1), New York: John Wiley & Sons.

  • de Moivre, A., 1718/1967, The Doctrine of Chances: or, A Method of Calculating the Probability of Events in Play, London: W. Pearson, 1718; 2nd edition, 1738; 3rd edition 1756; reprinted 1967, New York, NY: Chelsea.

  • De Morgan, A., 1847, Formal Logic, or, The Calculus of Inference, Necessary and Probable, London: Taylor and Walton.

  • Dogramaci, S., and S. Horowitz, 2016, “An Argument for Uniqueness about Evidential Support”, Philosophical Issues 26 (1): 130–147.

  • Eagle, A., 2010, Philosophy of Probability: Contemporary Readings, London: Routledge.

  • –––, 2004, “Twenty-One Arguments Against Propensity Analyses of Probability”, Erkenntnis, 60: 371–416.

  • –––, 2016, “Probability and Randomness”, in Hájek and Hitchcock (eds.) 2016, 440–459.

  • –––, 2018, “Chance, Determinism, and Unsettledness”, Philosophical Studies, 1–22.

  • Earman, J., 1992, Bayes or Bust?, Cambridge, MA: MIT Press.

  • Easwaran, K., 2013, “Expected Accuracy Supports Conditionalization—and Conglomerability and Reflection”, Philosophy of Science 80 (1): 119–142.

  • –––, 2016, “Dr. Truthlove or: How I Learned to Stop Worrying and Love Bayesian Probabilities”, Noûs 50 (4): 816–853.

  • Eder A. A.., 2023, “Evidential Probabilities and Credences”, The British Journal for the Philosophy of Science 74 (1).

  • Edwards, W., H. Lindman, and L. J. Savage, 1963, “Bayesian Statistical Inference for Psychological Research”, Psychological Review, 70: 193–242.

  • Elga, A., 2000, “Self-Locating Belief and the Sleeping Beauty Problem”, Analysis, 60 (2): 143–147. Also in Eagle 2010.

  • –––, 2004, “Infinitesimal Chances and the Laws of Nature”, Australasian Journal of Philosophy, 82 (1): 67–76.

  • –––, 2013, “The Puzzle of the Unmarked Clock and the New Rational Reflection Principle”, Philosophical Studies 164 (1): 127–139.

  • Eriksson, L. and A. Hájek, 2007, “What Are Degrees of Belief?”, Studia Logica (Special Issue, Formal Epistemology, Branden Fitelson, ed.), 86 (2): 185–215.

  • Eva, B., 2019, “Principles of Indifference”, Journal of Philosophy, 116 (7): 390–411.

  • Feller, W., 1968, An Introduction to Probability Theory and Its Applications, New York: John Wiley & Sons.

  • Festa, R., 1993, Optimum Inductive Methods: A Study in Inductive Probability, Bayesian Statistics, and Verisimilitude, Dordrecht: Kluwer (Synthese Library 232).

  • Fetzer, J. H., 1981, Scientific Knowledge: Causation, Explanation, and Corroboration (Boston Studies in the Philosophy of Science, Volume 69), Dordrecht: D. Reidel.

  • –––, 1982, “Probabilistic Explanations”, PSA: Proceedings of the Biennial Meeting of Philosophy of Science Association, 2: 194–207.

  • –––, 1983, “Probability and Objectivity in Deterministic and Indeterministic Situations”, Synthese, 57: 367–386.

  • Fine, T., 1973, Theories of Probability, Waltham, MA: Academic Press.

  • –––, 2016, “Mathematical Alternatives to Standard Probability that Provide Selectable Degrees of Precision”, in Hájek and Hitchcock (eds.) 2016, 203–247.

  • Fitelson, B., 2006, “Inductive Logic”, in The Philosophy of Science: An Encyclopedia (Volume 1: A–M), S. Sarkar and J. Pfeiffer (eds.), New York: Routledge, 384–394.

  • Forster, M. and E. Sober, 1994, “How to Tell when Simpler, More Unified, or Less Ad Hoc Theories will Provide More Accurate Predictions”, The British Journal for the Philosophy of Science, 45: 1–35.

  • Franklin, J., 2001, The Science of Conjecture: Evidence and Probability Before Pascal, Baltimore: Johns Hopkins University Press.

  • Frigg, R., 2016, “Chance and Determinism”, in Hájek and Hitchcock (eds.) 2016, 460–474.

  • Gaifman, H., 1988, “A Theory of Higher Order Probabilities”, in Causation, Chance, and Credence, B. Skyrms and W. L. Harper (eds.), Dordrecht: Kluwer Academic Publishers, 191–219.

  • Galavotti, M. C., 2005, Philosophical Introduction to Probability, Stanford: CSLI Publications.

  • Giere, R. N., 1973, “Objective Single-Case Probabilities and the Foundations of Statistics”, in Logic, Methodology and Philosophy of Science (Volume IV), P. Suppes et al., (eds.), New York: North-Holland, 467–483. Also in Eagle 2010.

  • Gillies, D., 2000a, “Varieties of Propensity”, British Journal for the Philosophy of Science, 51: 807–835.

  • –––, 2000b, Philosophical Theories of Probability, London: Routledge.

  • –––, 2016, The Propensity Interpretation, in Hájek and Hitchcock (eds.) 2016, 406–422.

  • Goldstein, M., 1983, “The Prevision of a Prevision”, Journal of the American Statistical Association, 78: 817–819.

  • Goodman, N., 1955, Fact, Fiction, and Forecast, Cambridge, MA: Harvard University Press; 2nd edition, Indianapolis: Bobbs-Merrill, 1965; 3rd edition Indianapolis: Bobbs-Merrill, 1973; 4th edition, Cambridge, MA: Harvard University Press, 1983.

  • Greaves, H., and D. Wallace, 2006, “Justifying Conditionalization: Conditionalization Maximizes Expected Epistemic Utility”, Mind, 115 (459): 607–632.

  • Hacking, I., 1965, The Logic of Statistical Inference, Cambridge: Cambridge University Press.

  • Hájek, A., 1997, “‘Mises Redux’ — Redux. Fifteen Arguments Against Finite Frequentism”, Erkenntnis, 45: 209–227. Also in Eagle 2010.

  • –––, 2003 “What Conditional Probability Could Not Be”, Synthese, 137 (3): 273–323.

  • –––, 2008, “Arguments for—or Against—Probabilism?”, The British Journal for the Philosophy of Science, 59: 793–819; reprinted in Degrees of Belief, F. Huber and C. Schmidt-Petri (eds.), Dordrecht: Springer, 2009, 229–251.

  • –––, 2009a, “Fifteen Arguments Against Hypothetical Frequentism”, Erkenntnis, 70: 211–235. Also in Eagle 2010.

  • –––, 2009b, “Dutch Book Arguments”, in The Oxford Handbook of Rational and Social Choice, P. Anand, P. Pattanaik, and C. Puppe (eds.), Oxford: Oxford University Press, 173–195.

  • Hájek, A., and C. Hitchcock, (eds.), 2016, The Oxford Handbook of Probability and Philosophy, Oxford: Oxford University Press.

  • Hájek, A. and C. Hitchcock, 2016b, “Probability for Everyone—Even Philosophers”, in Hájek, A., and C. Hitchcock (eds.) 2016, pp. 5–30.

  • Hájek, A. and H. Lin, 2017, “A Tale of Two Epistemologies”, Res Philosophica, 94 (2): 207–232.

  • Hájek, A., and M. Smithson, 2012, “Rationality and Indeterminate Probabilities”, Synthese, 187 (1): 33–48.

  • Hájek, A. and J. Staffel, 2021, “Subjective Probability and Its Dynamics”, in Knauff and Spohn (eds.) 2021.

  • Hall, N., 1994, “Correcting the Guide to Objective Chance” Mind, 103 (412): 505–518.

  • –––, 2003, “Two Concepts of Causation”, in J. Collins, N. Hall, and L. Paul (eds.), Counterfactuals and Causation, Cambridge, MA: MIT Press, 225–276.

  • –––, 2004, “Two Mistakes About Credence and Chance”, Australasian Journal of Philosophy, 82 (1): 93–111.

  • Halpern, J., 2003, Reasoning About Uncertainty, Cambridge, MA: The MIT Press.

  • Handfield, T. and A. Wilson, 2014, “Chance and Context”, in Chance and Temporal Asymmetry, A. Wilson (ed.), Oxford: Oxford University Press.

  • Hawthorne, J., 2016, “A Logic of Comparative Support: Qualitative Conditional Probability Relations Representable by Popper Functions”, in Hájek and Hitchcock (eds.) 2016, 277–295.

  • Hintikka, J., 1965, “A Two-Dimensional Continuum of Inductive Methods”, in Aspects of Inductive Logic, J. Hintikka and P. Suppes (eds.), Amsterdam: North-Holland, 113–132.

  • Hitchcock, C., 2002, “Probability and Chance”, in the International Encyclopedia of the Social and Behavioral Sciences (Volume 18), London: Elsevier, 12,089–12,095.

  • Hoefer, C., 2007, “The Third Way on Objective Probability: A Skeptic’s Guide to Objective Chance”, Mind, 116 (2): 549–596.

  • Howson, C. and P. Urbach, 1993, Scientific Reasoning: The Bayesian Approach, La Salle, IL: Open Court, 2nd edition.

  • Huber, F., 2018, A Logical Introduction to Probability and Induction, Oxford University Press.

  • Humphreys, P., 1985, “Why Propensities Cannot Be Probabilities”, Philosophical Review, 94: 557–70. Also in Eagle 2010.

  • Isaacs, Y., A. Hájek, and J. Hawthorne, 2022, “Non-Measurability, Imprecise Credences, and Imprecise Chances”, Mind, 131 (523): 894–918.

  • Ismael, J., 2008, “Raid! Dissolving the Big, Bad Bug”, Noûs, 42 (2): 292–307.

  • –––, 2009, “Probability in Deterministic Physics”, The Journal of Philosophy, 106 (2): 89–108.

  • Jackson, F., 1997, From Metaphysics to Ethics: A Defence of Conceptual Analysis, Oxford: Oxford University Press.

  • Jaynes, E. T., 1968, “Prior Probabilities” Institute of Electrical and Electronic Engineers Transactions on Systems Science and Cybernetics, SSC-4: 227–241.

  • Jeffrey, R., 1965, The Logic of Decision, Chicago: University of Chicago Press; 2nd edition, 1983.

  • –––, 1992, Probability and the Art of Judgment, Cambridge: Cambridge University Press.

  • Jeffreys, H., 1939, Theory of Probability; reprinted in Oxford Classics in the Physical Sciences series, Oxford: Oxford University Press, 1998.

  • Johnson, W. E., 1921, Logic, Cambridge: Cambridge University Press.

  • Joyce, J., 1998, “A Nonpragmatic Vindication of Probabilism”, Philosophy of Science, 65 (4): 575–603; reprinted in Eagle 2010.

  • –––, 2004, “Williamson on Evidence and Knowledge”, Philosophical Books, 45 (4): 296–305.

  • –––, 2011, “The Development of Subjective Bayesianism”, in Gabbay, D. M., S. Hartmann, and J. Woods (eds), Handbook of the History of Logic (Volume 10: Inductive Logic), Boston: Elsevier, 415–475.

  • Kahneman, D., P. Slovic, and A. Tversky, (eds.), 1982, Judgment Under Uncertainty. Heuristics and Biases, Cambridge: Cambridge University Press.

  • Kelly, T., 2010, “Peer Disagreement and Higher Order Evidence”, in In Alvin I. Goldman & Dennis Whitcomb (eds.), Social Epistemology: Essential Readings, Oxford: Oxford University Press, pp. 183–217.

  • Kemeny, J., 1955, “Fair Bets and Inductive Probabilities”, Journal of Symbolic Logic, 20: 263–273.

  • Keynes, J. M., 1921, A Treatise on Probability, London: Macmillan and Co.

  • Kieseppä, I. A., 2001, “Statistical Model Selection Criteria and Bayesianism”, Philosophy of Science, 68 (Proceedings): S141-S152.

  • Knauff, Markus and Wolfgang Spohn, 2021, (eds.), Handbook of Rationality, Cambridge, MA: MIT Press. [Knauff and Spohn 2021 available online].

  • Kolmogorov, A. N., 1933, Grundbegriffe der Wahrscheinlichkeitrechnung, Ergebnisse Der Mathematik; translated as Foundations of Probability, New York: Chelsea Publishing Company, 1950.

  • –––, 1965, “Three Approaches to the Quantitative Definition of Information”, Problemy Perdaci Informacii, 1: 4–7.

  • Kopec, M., and M. G. Titelbaum, 2016, “The Uniqueness Thesis”, Philosophy Compass, 11 (4): 189–200.

  • Kraemer, D. M, 2015, “Natural Probabilistic Information”, Synthese, 192 (9): 2901–2919.

  • Kyburg, H. E., 1970, Probability and Inductive Logic, New York: Macmillan.

  • Kyburg, H. E. and Smokler, H. E., (eds.), 1980, Studies in Subjective Probability, 2nd edition, Huntington, New York: Robert E. Krieger Publishing Co.

  • La Caze, A., 2016, “Frequentism”, in Hájek and Hitchcock (eds.) 2016, 341–359.

  • Laplace, P. S., 1814/1999. Philosophical Essay of Probabilities, translated by Andrew Dale, New York: Springer.

  • Lasonen-Aarnio, M., 2015, “New Rational Reflection and Internalism about Rationality”, Oxford Studies in Epistemology, 5: 145–171.

  • Levi, I., 1978, “Coherence, Regularity and Conditional Probability”, Theory and Decision, 9: 1–15.

  • Lewis, D., 1970, “How to Define Theoretical Terms”, Journal of Philosophy, 67: 427–446.

  • –––, 1973, Counterfactuals, Oxford: Blackwell.

  • –––, 1979,“Attitudes De Dicto and De Se”, Philosophical Review, 88: 513–543.

  • –––, 1980, “A Subjectivist’s Guide to Objective Chance”, in Richard C. Jeffrey (ed.) Studies in Inductive Logic and Probability, Vol II., Berkeley and Los Angeles: University of California Press; reprinted in Lewis 1986b, 263–294. Also in Eagle 2010.

  • –––, 1986a, “Probabilities of Conditionals and Conditional Probabilities II”, Philosophical Review, 95: 581–589.

  • –––, 1986b, Philosophical Papers: Volume II, Oxford: Oxford University Press.

  • –––, 1994a, “Reduction of Mind”, in A Companion to the Philosophy of Mind, S. Guttenplan (ed.), Oxford: Blackwell, 412–431.

  • –––, 1994b, “Humean Supervenience Debugged”, Mind, 103: 473–490.

  • Li, M. and P. Vitányi, 1997, An Introduction to Kolmogorov Complexity and Its Applications, 2nd ed., New York: Springer.

  • Lin, Hanti, 2013, “Foundations of Everyday Practical Reasoning”, Journal of Philosophical Logic, 42 (6): 831–862.

  • Loewer, B., 2004, “David Lewis’s Humean Theory of Objective Chance”, Philosophy of Science, 71 (5): 1115–1125. Also in Eagle 2010.

  • –––, 2012, “Two Accounts of Laws and Time”, Philosophical Studies, 160 (1): 115–137.

  • –––, 2020, “The Mentaculus Vision”, in V. Allori (ed.) Statistical Mechanics and Scientific Explanation: Determinism, Indeterminism, and Laws of Nature, Singapore: World Scientific, 3–29.

  • Lyon, A., 2011, “Deterministic Probability: Neither Chance nor Credence”, Synthese, 182 (3): 413–32.

  • –––, 2014, “From Kolmogorov, to Popper, to Renyi: There’s No Escaping Humphreys’ Paradox (When Generalized)”, in Chance and Temporal Asymmetry, Oxford: Oxford University Press.

  • –––, 2016, “Kolmogorov’s Axiomatization and Its Discontents”, in Hájek and Hitchcock (eds.) 2016, 155–166.

  • Maher, P., 2000, “Probabilities for Two Properties”, Erkenntnis, 52: 63–91.

  • –––, 2001, “Probabilities for Multiple Properties: The Models of Hesse and Carnap and Kemeny”, Erkenntnis, 55: 183–216.

  • –––, 2010, “Explication of Inductive Probability”, Journal of Philosophical Logic, 39: 593–616.

  • Mahtani, A., 2022, “Dutch Book and Accuracy Theorems”, Proceedings of the Aristotelian Society, 120 (3): 309–327.

  • Martin-Löf, P., 1966, “The Definition of Random Sequences”, Information and Control, 9: 602–619.

  • Meacham, C. J. G., 2008, “Sleeping Beauty and the Dynamics of De Se Beliefs”, Philosophical Studies, 138 (2): 245–269.

  • Meacham, C. J. G., and J. Weisberg, 2011, “Representation Theorems and the Foundations of Decision Theory”, Australasian Journal of Philosophy, 89 (4): 641–663.

  • Mellor, D. H., 2005, Probability: A Philosophical Introduction, London: Routledge.

  • Miller, D. W., 1994, Critical Rationalism: A Restatement and Defence, Lasalle, Il: Open Court.

  • Nielsen, M., 2023, “Accuracy and Probabilism in Infinite Domains”, Mind, 132 (526): 402–427.

  • Norton, J. D., 2008, “Ignorance and Indifference”, Philosophy of Science, 75 (1): 45–68.

  • Paris J. and A. Vencovská, 1997, “In Defence of the Maximum Entropy Inference Process”, International Journal of Approximate Reasoning, 17: 77–103.

  • Pearl, J., 2000, Causality, Cambridge: Cambridge University Press.

  • Peirce, C. S., 1957, “Notes on the Doctrine of Chances”, in Essays in the Philosophy of Science (The American Heritage Series), Indianapolis and New York: Bobbs-Merrill, 74–84.

  • Pettigrew, R., 2014, “Accuracy, Risk, and the Principle of Indifference” Philosophy and Phenomenological Research, 92 (1): 35–59.

  • –––, 2016, Accuracy and the Laws of Credence, Oxford: Oxford University Press.

  • –––, 2020, Dutch Book Arguments (Elements in Decision Theory and Philosophy), Cambridge: Cambridge University Press.

  • Poincaré, H. 1896, Calcul des Probabilités, Paris: Gauthier-Villars.

  • Popper, K. R., 1957, “The Propensity Interpretation of the Calculus of Probability and the Quantum Theory”, in S. Körner (ed.), The Colston Papers, 9: 65–70.

  • –––, 1959a, “The Propensity Interpretation of Probability”, British Journal of the Philosophy of Science, 10: 25–42. Also in Eagle 2010.

  • –––, 1959b, The Logic of Scientific Discovery, New York: Basic Books; reprinted, London: Routledge, 1992.

  • –––, 1990, A World of Propensities – Two New Views on Causality, Bristol: Thoemmes.

  • Predd, J. B., R. Seiringer, E. H. Lieb, D. N. Osherson, H. V. Poor, and S. R. Kulkarni, 2009, “Probabilistic Coherence and Proper Scoring Rules”, IEEE Transactions on Information Theory, 55 (10): 4786–4792.

  • Ramsey, F. P., 1926, “Truth and Probability”, in Foundations of Mathematics and other Essays, R. B. Braithwaite (ed.), London: Kegan, Paul, Trench, Trubner, & Co., 1931, 156–198; reprinted in Studies in Subjective Probability, H. E. Kyburg, Jr. and H. E. Smokler (eds.), 2nd edition, New York: R. E. Krieger Publishing Company, 1980, 23–52; reprinted in Philosophical Papers, D. H. Mellor (ed.), Cambridge: Cambridge University Press, 1990, 52–94. Also in Eagle 2010.

  • –––, 1928/1990, “General Propositions and Causality”, Philosophical Papers, edited by D. H. Mellor, Cambridge: Cambridge University Press, 145–163.

  • Reichenbach, H., 1949, The Theory of Probability, Berkeley: University of California Press.

  • Rényi, A., 1970, Foundations of Probability, San Francisco: Holden-Day, Inc.

  • Rinard, S., 2014, “The Principle of Indifference and Imprecise Probability”, Thought, 3: 110–114.

  • Rissanen, J. 1999, “Hypothesis Selection and Testing by the MDL Principle”, Computer Journal, 42 (4): 260–269.

  • Roeper, P. and H. Leblanc, 1999, Probability Theory and Probability Logic, Toronto: University of Toronto Press.

  • Ross, S., 2013,A First Course in Probability, 9th edition, Upper Saddle River, NJ: Pearson.

  • Salmon, W., 1966, The Foundations of Scientific Inference, Pittsburgh: University of Pittsburgh Press.

  • Savage, L. J., 1954, The Foundations of Statistics, New York: John Wiley.

  • Scarantino, A., 2015, “Information as a Probabilistic Difference Maker”, Australasian Journal of Philosophy, 93 (3): 419–443.

  • Schaffer, J., 2007, “Deterministic Chance?”, The British Journal for the Philosophy of Science, 58 (2): 113–140.

  • Schervish, M. J., T. Seidenfeld, and J. B. Kadane, 2003, “Measures of Incoherence”, in Bayesian Statistics (Volume 7), J.M. Bernardo, et al. (eds.), Oxford: Oxford University Press, 385–402.

  • Schoenfield, M., 2017a, “Conditionalization Does Not (in General) Maximize Expected Accuracy”, Mind, 126 (504): 1155–1187.

  • –––, 2017b, “The Accuracy and Rationality of Imprecise Credences”, Noûs, 51 (4): 667–685.

  • –––, 2019, “Permission to Believe: Why Permissivism Is True and What It Tells Us about Irrelevant Influences on Belief”, in J. Fantl, M. McGrath, and E. Sosa (eds.), Contemporary Epistemology: An Anthology, Hoboken: Wiley-Blackwell, 277–295.

  • Schwarz, W., 2014, “Proving the Principal Principle”, in Chance and Temporal Asymmetry, A. Wilson (ed.), Oxford: Oxford University Press, 81–99.

  • –––, 2016, “Best System Approaches to Chance”, in Hájek and Hitchock (eds.), 2016, 423–439.

  • –––, 2018, “No Interpretation of Probability”, Erkenntnis, 83 (6): 1195–1212.

  • Scott D., and P. Krauss, 1966, “Assigning Probabilities to Logical Formulas”, in Aspects of Inductive Logic, J. Hintikka and P. Suppes (eds.), Amsterdam: North-Holland, 219–264.

  • Seidenfeld, T., 1986, “Entropy and Uncertainty”, Philosophy of Science, 53: 467–491.

  • Shannon, C. E., 1948, “A Mathematical Theory of Communication”, Bell System Technical Journal, 27 (3): 379–423.

  • Shannon, C. E, and W. Weaver, 1949, The Mathematical Theory of Communication, University of Illinois Press.

  • Shimony, A., 1970, “Scientific Inference”, in The Nature and Function of Scientific Theories, R. Colodny (ed.), Pittsburgh: University of Pittsburgh Press.

  • –––, 1988, “An Adamite Derivation of the Calculus of Probability”, in J.H. Fetzer (ed.), Probability and Causality, Dordrecht: D. Reidel.

  • Skyrms, B., 1980, Causal Necessity, New Haven: Yale University Press.

  • –––, 1984, Pragmatics and Empiricism, New Haven: Yale University Press.

  • –––, 2000, Choice and Chance, 4th edition, Belmont, CA: Wadsworth, Inc.

  • Sober, E., 2000, Philosophy of Biology, 2nd edition, Boulder, CO: Westview Press.

  • Spirtes, P., C. Glymour, and R. Scheines, 1993, Causation, Prediction, and Search, New York: Springer-Verlag.

  • Spohn, W., 1986, “The Representation of Popper Measures”, Topoi, 5: 69–74.

  • Staffel, J., 2019, Unsettled Thoughts: A Theory of Degrees of Rationality, Oxford: Oxford University Press.

  • Stalnaker, R., 1970, “Probabilities and Conditionals”, Philosophy of Science, 37: 64–80.

  • Stove, D. C., 1986, The Rationality of Induction, Oxford: Oxford University Press.

  • Strevens, M., 2003, Bigger Than Chaos: Understanding Complexity through Probability, Cambridge, MA: Harvard University Press.

  • –––, 2013, Tychomancy, Cambridge, MA: Harvard University Press.

  • Titelbaum, M. G., 2013, Quitting Certainties: A Bayesian Framework Modeling Degrees of Belief, Oxford University Press.

  • –––, 2016, “Self-Locating Credences”, in Hájek and Hitchcock (eds.) 2016, 666–680.

  • –––, 2017, “One’s Own Reasoning”, Inquiry, 60 (3): 208–232.

  • –––, 2017, Fundamentals of Bayesian Epistemology (Volumes 1 and 2), Oxford: Oxford University Press.

  • van Fraassen, B., 1984, “Belief and the Will”, Journal of Philosophy, 81: 235–256. Also in Eagle 2010.

  • –––, 1989, Laws and Symmetry, Oxford: Clarendon Press.

  • –––, 1995a, “Belief and the Problem of Ulysses and the Sirens”, Philosophical Studies, 77: 7–37.

  • –––, 1995b, “Fine-grained Opinion, Conditional Probability, and the Logic of Belief”, Journal of Philosophical Logic, 24: 349–377.

  • Venn, J., 1876, The Logic of Chance, 2nd edition, London: Macmillan; reprinted, New York: Chelsea Publishing Co., 1962.

  • von Mises R., 1957, Probability, Statistics and Truth, revised English edition, New York: Macmillan.

  • von Neumann, J. and O. Morgenstern, 1944, Theory of Games and Economic Behavior, Princeton: Princeton University Press; New York: John Wiley and Sons, 1964.

  • von Plato J., 1994, Creating Modern Probability, Cambridge: Cambridge University Press.

  • Wallace, C. S. and D. L. Dowe, 1999, “Minimum Message Length and Kolmogorov Complexity”, Computer Journal (Special Issue: Kolmogorov Complexity), 42 (4): 270–283.

  • White, R., 2010, “Evidential Symmetry and Mushy Credence”, Oxford Studies in Epistemology, 3 (161): 20.

  • Williamson, J., 1999, “Countable Additivity and Subjective Probability”, The British Journal for the Philosophy of Science, 50 (3): 401–416.

  • Williamson, T., 2000, Knowledge and Its Limits, Oxford: Oxford University Press.

  • –––, 2014, “Very Improbable Knowing”, Erkenntnis, 79 (5): 971–999.

  • Woodward, J., 2003, A Theory of Explanation: Causation, Invariance and Intervention, Oxford: Oxford University Press.

  • Zabell, S. 2016, “Symmetry Arguments in Probability”, in Hájek and Hitchcock (eds.) 2016, 315–340.

  • Zynda, L., 1996, “Coherence as an Ideal of Rationality”, Synthese 109(2): 175–216.

  • –––, 2000, “Representation Theorems and Realism about Degrees of Belief”, Philosophy of Science 67(1): 45–69.

Academic Tools

Other Internet Resources

Carnap, Rudolf | causal models | causation: probabilistic | chance: versus randomness | decision theory | disagreement | Dutch book arguments | epistemology: Bayesian | information | Laplace, Pierre Simon | logic: inductive | Popper, Karl | probability, in medieval and Renaissance philosophy | quantum theory: philosophical issues in | Ramsey, Frank | Reichenbach, Hans | self-locating beliefs | statistics, philosophy of

Acknowledgments

I thank Branden Fitelson, Matthias Hild, Christopher Hitchcock, Leon Leontyev, Ralph Miles, Wolfgang Schwarz, Teddy Seidenfeld, Glenn Shafer, Elliott Sober, Jeremy Strasser, and Jim Woodward for their many helpful comments, and especially Jim Joyce, who gave me very detailed and incisive feedback.

Copyright © 2023 by Alan Hájek <alan.hajek@anu.edu.au>

最后更新于

Logo

道长哲学研讨会 2024