概率与随机性 versus randomness (Antony Eagle)

首次发表于 2010 年 8 月 18 日;实质修订于 2018 年 2 月 8 日

随机性,就我们通常所认为的,是指某些结果以偶然、不可预测或偶然发生的方式存在。这三种概念都是不同的,但都与概率有某种紧密联系。众所周知,有许多种概率:主观概率(“信念程度”),证据概率和客观概率,等等(Hájek 2012),我们可以探究随机性与任何这些概率种类之间的联系。在本文中,我们重点关注随机性与机会或物理概率之间的潜在联系。单词“随机”通常被使用的方式与“偶然”的意思几乎可以互换,这暗示了这个常见的论点——我们讨论的一个有用的主张:

(CT)

如果某事发生是偶然的,那么它就是随机的。

普通论点以及它所提出的随机性和概率之间的密切联系,似乎也在科学文献中得到认可,就像这个关于进化的流行教科书中的例子一样(为了更好地说明,还引入了不可预测性的概念):

科学家使用概率或随机性来表示当物理原因可能导致多种结果时,在任何特定情况下我们无法预测结果将会是什么(Futuyma 2005: 225)。

毫无疑问,一些哲学家也同样受到这种不经思考的省略的影响,但其他人则有意识地将概率和随机性联系在一起。Suppes 赞同地引入了

宇宙本质上是具有概率性的观点,或者更口语化地说,世界充满了随机事件。(Suppes 1984: 27)

然而,在我们对概率和随机性的技术和哲学理解方面取得了一些进展后,有可能发现在普通和科学用法中,概率和随机性之间的轻松转换——这种转换将通过普通命题的真实性得到证明——是相当误导人的。本条目将尝试阐明这些发展,并澄清概率和随机性之间的区别,以及它们在应用中重叠的领域。它还将旨在澄清概率和随机性与其他重要概念(尤其是常常引起混淆的确定性和可预测性)之间的关系。

如果普通命题是错误的,而普通用法是误导性的,那么就会产生哲学上重要的后果。例如,直觉上认为,如果一个事件是真正随机的,那么它就无法解释(如果它发生有原因,那么它就不是真正随机的)。那么,当涉及到真正的概率时,概率解释的可能性似乎受到了削弱。然而,这种悲观的结论只是在基于普通命题的假设下才成立,即所有的偶然结果都是随机的。另一个有趣的案例是统计推断中随机抽样的作用。如果随机性需要机会,那么除非实验设计涉及到真正的机会选择受试者,否则基于“随机”抽样大样本的统计推断将无效。但是,随机抽样的理由可能不需要随机抽样——只要我们的样本具有代表性,那些统计推断可能是可靠的。但在这种情况下,我们将处于一个奇特的境地,随机抽样与随机性没有太多关系,而基于随机抽样的信念的任何理由,目前被认为是提供随机性的,都需要被其他东西取代。

最后一个具有相当哲学意义的案例是客观概率的频率主义方法,它声称(大致上)一个结果的机会是它在适当的一系列结果中的频率(Hájek 2012 §3.4)。为了避免将完全规律的重复结果归类为偶然的,频率主义者如冯·米塞斯(1957)提出要求结果的系列应该是随机的,没有模式或顺序。如果普通命题失败,频率主义可能也会失败:如果有可能出现偶然结果而没有随机性,两者都将失败。

普通命题是这三个例子的核心。由于概率解释被广泛接受是合法的,随机抽样不需要真正的随机性(尽管它可能有所帮助),而频率主义面临严重困境(Hájek 1997),普通命题已经受到了一些压力。但我们必须对其进行更详细的审查,以澄清这些论证是否成功,以及说某个事件或过程是随机或具有随机性到底意味着什么。虽然进一步发展这种类型的后果不是本条目的主要目的,但希望这里所说的内容可以帮助解决围绕机会和随机性的这些和其他棘手问题。


1. 概率

要搞清楚机会和随机性之间的联系和区别,首先需要对机会和随机性有一些概念。有趣的是,哲学关注的重点更多地集中在机会而不是随机性上。这很可能是普通命题的结果。无论其来源如何,我们可以引用哲学文献中对机会必须是什么样的事物存在着广泛共识。

Carnap(1945 年)区分了两种概率概念,并认为两者在科学上都很重要。他的“probability1”对应于认识论概念,现在通常被解释为证据概率(按照 Carnap 自己的说法)或信念程度。这与 Carnap 的“probability2”相对应,后者是一种非认识论客观概率的概念,更为人所熟知的是随机性。

关于随机性的基础,有许多哲学解释,这是一个较小的哲学领域,其目的是产生“解释”——实际上是概率的还原分析或解释。在这方面,我们至少有 Reichenbach(1949 年)和 von Mises(1957 年)的频率理论(Carnap 自己对 probability2 的解释也是基于频率),Popper(1959 年)和 Giere(1973 年)的倾向性理论,以及许多更近期的解释,尤其是 Lewis(1994 年)关于随机性的“最佳系统”解释(另见 Loewer 2004)。关于这些解释中哪个是正确的,目前还没有达成一致意见;显然,提到的这两种解释都在解释随机性方面面临困难。前面提到的共识并不是关于什么实际上扮演了随机性角色,而是关于决定该角色的约束条件。

可以达成这样的共识,因为“概率”并不是一个技术术语,而是在相当熟悉的情况下使用的普通概念(例如赌博游戏、复杂且不可预测的情景、大量相似事件等)。英语母语者普遍认同何时适用于某个特定情况的“概率”,这种共识至少表明普通信念中存在相当大的内容。我们不必将民间直觉的结果视为神圣不可侵犯,但我们承认这种普通信念为哲学解释概率提供了起点。可能会发现没有任何事物符合这些普通信念及其哲学概括所指定的角色,但即使在这种情况下,我们也倾向于得出概率不存在的结论,而不是我们对概率的普通信念是错误的结论。

下面,将概述一些哲学家从关于概率的常见信念中提取出的理论原则。(在这样做的过程中,我们自由地使用概率符号和概念;有关理解这些表达所需的背景概率理论,请参阅有关概率解释的条目,Hájek 2012: §1。)自概率哲学的早期以来,已经广泛接受了两个这样的约束。首先,要求概率的数学应符合某种标准的概率数学理论,例如科尔莫哥洛夫(Kolmogorov)在 1933 年对概率演算的公理化(或类似的变体,如波普尔(Popper)对条件概率的公理化)。其次,概率应该是客观的:与心智无关,不是认识论的或证据的。但是,文献中还提出并捍卫了许多其他约束。(Schaffer 2007: §4 包含了对概率角色的这些和其他约束的有用讨论。)虽然这些原则被称为“我们对概率的了解”,但这不应被理解为排除我们发现没有概率这样的事物的可能性——相反,哲学共识是,如果有概率这样的事物存在,它将(或多或少地)符合这些约束。

  • 概率应该调节(即与规范有关)根据刘易斯(Lewis)的主要原则(Principal Principle)(刘易斯,1980)或他的新原则(Lewis,1994;Hall,2004)来进行理性信念。其中 C 是一个合理的初始置信函数,E 是证据,主要原则(省略了一些复杂性)是这样的:

    (PP)C(p∣┌Ch(p)=x┐∧E)=x;

    这个原则认为,理性的初始信念应该将概率视为专家,并在关于结果 p 的观点上听从它,通过采用相应的概率作为自己的条件信念程度。这个新原则——为了处理刘易斯的形而上学和 PP 之间的一些问题互动而采用——提倡以一种稍微不同的方式听从概率。这个新原则 NP 建议(或多或少地)理性的初始信念应该将概率视为关于结果 p 的专家,通过采用在可接受的证据上的条件概率作为你对同样证据的条件信念程度,就像在这个原则中一样(这个主张对应于 Hall 2004 中的方程式 3.9;请参见他在第 102-5 页的讨论,了解一些重要的限制条件,以及与刘易斯 1994 年的 NP 表述的联系):

    (概率分析师)C(p∣┌Ch(p∣E)=x┐∧E)=x。

    关于概率的非还原主义观点认为,概率是现实的独立基本特征,可以遵循 PP。还原主义者认为,概率的值完全由现实的其他特征(通常是频率和对称性,但概率通常以相当间接的方式受到它们的限制)确定,出于技术原因(与破坏有关,请参见附录 A.1),通常被迫采用 NP 和概率分析师作为信念的规范,尽管在许多普通情况下,NP 和 PP 给出非常相似的建议。无论哪种情况,这两个形式原则都给出了概率应该指导合理信念的直观合理想法的内容。[1]

  • 概率应该与可能性相联系。莱布尼兹声称概率是一种“分级可能性”,而最近的作者们在很大程度上都同意这一观点。特别是,似乎很明确的是,如果一个结果有一定的概率发生,那么这个结果有可能发生。这种直觉在基本概率原理(BCP)中得到了精确的表述(有关该原理的更多详细信息,请参见附录 A.2):

    假设 x>0 且 Chtw(A)=x。那么 A 在那些与 w 在时间 t 之前匹配且 Cht(A)=x 的世界 w'中至少为真。(Bigelow 等人,1993: 459)

    但是,并不需要接受 BCP 的确切版本才能支持概率和可能性必须相互关联的一般论点——关于这种主张的其他版本,请参见 Mellor(2000);Eagle(2011)和 Schaffer(2007: 124)的“实现原理”。

  • 概率应该与实际频率相连接,至少在允许频率成为概率值的良好证据的程度上。这可以通过概率与频率之间的直接连接,或者通过观察到的结果频率对概率的确信度通过主要原则(Lewis,1980:104-6)的影响来实现。但是概率不应该与频率等同-因为公平的硬币可以产生任何序列的结果,所以无法将概率与观察到的频率等同起来。(当然,当投掷次数足够多时,公平的硬币极有可能产生大致相等的正面和反面次数)。此外,即使相关过程的实例非常少,导致实际频率具有误导性或微不足道(例如,如果只有一个实际结果:Hájek 1997),也可能存在某种结果的概率。

  • 在考虑频率和概率之间的关系时,不是任何频率都可以。所需的是在相关类似试验中的频率,具有相同类型的实验设置。这种试验中频率的相关性源于这样的假设:在这样的类似试验中,存在相同的概率:内部世界重复试验应具有相同的概率。这与“稳定试验原则”(Schaffer,2003:37ff)密切相关。概率附加在试验结果上,但概率的物理基础在于试验设备或概率设置的物理属性。

关于所有这些原则的更多详细信息可以在此补充文件中找到:

附录 A. 关于概率的一些基本原则

1.1 '单例'概率和概率过程

通常说,概率是指'单例客观概率'。哲学家们对于'单例'的含义并不十分清楚,这个术语稍微有些误导,因为它错误地暗示了多个案例可能对其概率的要求较少。这个主张的最简化版本是,至少有时候,一个结果可能有概率成为给定类型的过程或试验的一个实例的结果,即使没有其他该过程的试验发生。这就是我们所说的'单例'概率的意思。(更强的主张是,一个结果由给定过程产生的概率是单次试验的内在属性。这个更强的主张与频率理论的标准版本不一致,而且如果这个更强的主张是真实的,很难看出概率和频率如何相互联系。)有人声称,单例概率不是客观概率的一部分;例如,冯·米塞斯(1957 年:第 11 页)指出'概率的概念...仅适用于同一事件一次又一次地重复发生的问题,或者同时涉及大量均匀元素的问题。'然而,这是冯·米塞斯的一个理论判断,基于他对单例概率解释的困难的观察;这不是从概率角色的内在限制中得出的判断。而且它怎么可能呢?

不管你喜不喜欢,我们有这个“单次概率”的概念。我们认为一个即将被抛掷的硬币有一定的概率朝上,或者一个放射性原子在一年内有一定的概率衰变,这与任何人对此的信仰无关,也与是否存在其他类似的硬币或原子无关。作为哲学家,我们可能会觉得客观概率的概念令人困扰,但这并不是否认其存在、合法性或不可或缺性的借口。如果我们无法理解它,那就更糟糕了。(刘易斯,1980 年:90)

上述讨论中的一些限制要求单例概率的合法性。对频率解释的概率的反对意味着,如果实际结果的数量太少,频率可能会误代表概率,这显然要求即使是发生次数非常少的试验类型所导致的事件也存在非平凡的概率,甚至可能只能发生非常少的次数(Hájek 2009: 227–8)。BCP 及其变体所提出的可能性和概率之间的强关联也要求存在单例概率。因为 BCP 要求,对于每个具有某种概率的事件,该事件具有相同概率并发生是可能的。如附录 A.2 中所述,这使得概率相对独立于发生频率,而这又要求存在单例概率。对于某些单一结果,例如,一个偏向正面 ⅔ 的硬币的下一次抛掷,只有非常少的置信度分配是合理的;在这种情况下,如果我们是理性的,我们应该对硬币正面朝上的抛掷有 ⅔ 的置信度。这种不平等分配的合理性不能通过对称性或漠不关心之类的任何事物来解释。只有在下一次抛掷硬币正面的单例概率为 ⅔ 时,PP 才能解释其合理性。此外,对理性置信度的这种限制的存在应该有一个解释。因此,如果 PP 要发挥这种必要的解释作用,就需要单例概率。

它是与单个案例的概率最密切相关的稳定试验原理。因为要求重复试验应该获得相同的概率,自然而然地将概率基于该试验的属性以及自然法则。即使该类型的试验只有一个实例,也可以想象出相同的法则可能存在,并且在那种情况下应该分配相同的概率。但即使该类型的事件只发生一次,也存在明确定义的概率。

这次讨论的结果是,概率是一个过程概念,而不完全由概率表述的表面语法所决定。因为即使只有一次实际投掷,硬币翻转的机会也可以是 12,即使它最终翻到了反面,那么显然概率不能由“翻到正面”的结果属性来确定,因为这个结果并不存在。概率必须根植于能够产生结果的过程的特征:包括硬币的质量分布、投掷的细节,以及背景条件和规律。一个事件是否偶然发生是由产生它的过程的特征决定的,而不是事件本身。硬币翻到正面并不能确定它是偶然发生的,因为如果它只是被放置在正面,而不是以正常方式投掷,我们得到的结果并非偶然。有时,结果事件的特征无法与产生它的原因的特征相分离,这些特征表征了产生它的过程。但这次讨论的结果是,即使在这些情况下,一个结果是否偶然发生是由导致它的过程的属性所决定的,而不仅仅是一个具有特定特征的事件是该过程的产物。

1.2 物理学与概率

概率存在吗?符合概率原理的最佳概率函数示例是由我们最好的物理理论提供的。特别是,在放射性衰变和量子力学中出现的概率函数可以被视为概率函数。在量子力学的正统方法中,对于处于给定状态的系统的某些测量结果将不会产生代表该先前状态明确特征的结果(Albert 1992)。例如,对于处于确定的 y 自旋状态的系统进行 x 自旋测量将不会产生反映先前 x 自旋状态的确定结果,而是有 0.5 的概率得到 x 自旋=+1 的结果,有 0.5 的概率得到 x 自旋=−1 的结果。这些测量结果不能反映系统的任何先前条件,这是各种无隐藏变量定理的结果,其中最著名的是贝尔定理(Bell 1964;参见贝尔定理条目,Shimony 2009)。贝尔定理表明,对于两个粒子纠缠但空间上分离的系统的自旋测量的概率不能等于两个独立的单粒子系统的联合概率。结果是,纠缠系统不能被表示为具有确定先前 x 自旋状态的两个独立局部化系统的乘积。因此,对于这些测量结果的概率,不能将其解释为我们对系统中隐藏质量的无知,以至于这些概率实际上是量子力学系统本身的基本特征。[4]

理解这一问题的标准方式是,某种东西——在哥本哈根解释中是测量过程,在 GRW 理论中是自发坍缩——引发了一个非确定性的状态转换,称为坍缩,使系统真正处于与给定属性相关的确定状态中(尽管之前不是)。这些转换概率完全由状态和坍缩过程决定,这使得这些概率符合稳定试验原则。标准量子力学模型明确允许两个处于相同状态的系统通过坍缩演化为原始状态中具有非零先验概率的任何状态,这使得这些概率符合基本条件原则。而无隐藏变量定理强烈暗示,在未来状态中,没有比概率更好的关于系统的信息来指导信任度,这使得这些概率在预测原理中扮演了正确的角色。这些控制状态转换的基本量子概率似乎是被称为概率的强有力候选者。

前述的论证必须基于坍缩的实质使用。坍缩作为一种规定量子态演化的替代规则的存在是有争议的,量子力学中我们对为什么坍缩(或测量)会产生基本概率没有令人满意的理解是一个丑闻。但是话虽如此,已经得到确认的不能合理归纳为非概率性理论的概率性理论的存在是一些证据表明存在概率。(尽管埃弗里特(“多世界”)从主观不确定性中产生量子概率的计划最近获得了一些拥护者——参见巴雷特 1999 年;华莱士 2007 年。)实际上,这看起来是存在概率的最强有力的证据。因为如果我们最好的物理理论没有概率特征,我们就没有太多理由去假设它们的存在,并且没有太多理由去认为存在概率。当我们讨论经典物理学时,这将变得重要(§ 5)。经典物理学的传统观点,包括统计力学,是不涉及基本概率的(因为状态转换动力学是确定性的),因此不是一个假设存在概率的理论(Loewer 2001 年)。下面,我们将检查这个观点,以及对这个传统观点的最近挑战。但是,至少从基础物理学的证据来看,存在概率的存在足以使我们在这一点上采用它作为一种可辩护的假设。

2. 随机性

如前言所述,一些哲学家故意使用“随机”来表示“有机会的”。在他们看来,随机过程是指在前一节中所述意义上由机会主导的过程。这产生了这样的规定性定义:

我将随机性与概率性或偶然性归为一类,将随机过程定义为不完全任性或无计划地运作,而是遵循随机或概率性法则。(Earman 1986: 137)

这种对随机性的过程概念是完全合理的,尽管有些多余。但对于我们的目的来说,它是不够的。它使得常见命题变得平凡,因此既不具有趣味性,也不适合支持一些人从中得出的关于解释或实验设计的有趣结论。此外,

对过程随机性的引用在另一方面是不充分的,因为它不能涵盖所有的随机性情况。以一千次连续投掷公平硬币的情况为例,我们非常有信心地期望至少出现一次正面。但是,即使这种结果有可能不会发生,它仍然被视为过程随机。这与我们通常对这种结果的说法不一致,这种结果并不是完全意外、杂乱或不可预测的。我们可以寻找一些对过程随机性的细化概念,将“随机”一词保留给外观更不规则的结果。但更好的方法,也是我们在本文中追求的方法,是区分产生结果的过程的随机性(我们规定为机会过程),以及该随机过程的产物的随机性。在刚才设想的情况下,我们有一个随机过程,而“1000 次投掷中至少出现一次正面”的结果并不是一个随机产物。

产品随机性的引入帮助我们理解一些常见的使用“随机”来描述给定重复过程的整个结果集合的情况。这是随机样本的意义所在:它是从中抽取的总体的无偏表示,这是整个样本的一个属性,而不是每个个体成员的属性。如果一个随机样本要发挥作用,它应该在与感兴趣的总体变量相关方面是不规则和杂乱的。我们不应该能够通过利用总体中个体的某些其他特征来对样本的成员资格进行任何可靠程度的预测。(因此,我们不应该能够通过使用“身高超过 180 厘米”之类的特征来猜测随机样本的可能成员资格。)随机样本是指在代表从中抽取的基础总体方面具有典型性的样本,这意味着在理想情况下,它不会展示出在该基础总体中没有体现的任何顺序或模式。

虽然许多随机样本将使用随机过程进行抽取,但并非必须如此。例如,如果我们事先确信某人的出生分钟的最后一位数字与其家庭收入无关,我们可以通过选择那些出生分钟以“7”结尾的人来抽取人们收入的随机样本,而这个选择过程并不是随机的。为了确保我们的样本是随机的,我们可能希望使用随机数来决定是否将某个个体纳入样本;为此,已经制作了大量的随机数字表,不显示任何顺序或模式(RAND Corporation 1955)。这种将随机性主要与结果集合相关联的另一种概念被称为产品随机性。

产品的随机性在科学推理中也起着重要作用。假设我们遇到一个新奇的现象,并试图给出一个关于它的理论。我们所拥有的起点只是关于所发生事情的数据。如果这些数据非常规律和有规律性,我们可能会试图给出一个确定性的理论来解释这个现象。但如果数据是不规则和混乱的——随机的,我们可能只能提供一个随机性的理论。由于我们无法依靠事先知道这个现象是否具有偶然性来发展一个理论,能够直接刻画数据是否随机而不需要通过对其背后过程的先前知识绕道而行变得极为重要。我们可能认为我们可以通过检查数据来做到这一点——毫无疑问,缺乏规律性将对观察者显而易见?(即使这并不是随机性所必然导致的,我们可能认为无规律性是随机性的有力证据。)然而,心理研究反复表明,人类在辨别模式方面表现不佳,他们会在完全随机的数据中看到模式,并且(实际上出于同样的原因)在非随机数据中无法看到模式(Gilovich 等,1985 年;Kahneman 和 Tversky,1972 年;Bar-Hillel 和 Wagenaar,1991 年;Hahn 和 Warren,2009 年)。因此,需要一个客观的关于一系列结果随机性的解释是可靠科学推理所必需的。

乍一看,给无序和无规律性一个严格的描述似乎是一项无望的任务,而且更加困难的是,我们需要在不使用概率的概念的情况下对其进行描述(否则我们会使 CT 变得平凡)。然而,在算法随机性理论的一系列数学发展中,尤其是在 20 世纪 70 年代初,显示出了对一系列结果的随机性进行令人满意的描述是可能的。这个概念不仅在统计学和科学推理的基础上显示出了其理论上的富饶性,而且在与信息论和复杂性理论的发展相关方面也显示出了其理论上的富饶性。本节的任务是介绍数学方法来定义随机序列,就像我们在前一节中介绍了关于概率的哲学共识一样。然后,我们将能够使用理论上富有成果的概率和随机性概念来评估常见的论点。

算法随机性的迷人数学对于哲学家来说大多是未知的。因此,我将在本条目中进行相当详细的阐述。更多技术性的细节已被放在了这个补充文件中:

补充 B. 关于算法随机性的进一步细节

大多数证明将被跳过,或者被归入这个补充文件中:

补充 C. 选定定理的证明

更详细的讨论可以在引用的参考文献中找到。

在整个过程中,重点将放在一个简单的二进制过程上,该过程只有两种结果类型 O={0,1}。(对于这样一个简单过程的结果序列的随机性理论可以扩展到更复杂的结果集,但即使在哪些二进制序列是产生随机的问题上也有很多有趣的内容吗?)结果序列是有序的事件集合,有限或无限,每个事件都属于 O 中的一种类型。因此,一个序列 x=x1x2…xk…,其中每个 xi∈O。所有无限二进制结果序列的集合被称为康托尔空间。一个熟悉的例子是一个过程,其结果形成康托尔空间,这个过程是一个无限独立抛硬币的序列,其中 1 表示正面,0 表示反面。下面的讨论中使用了测度论和可计算性理论的概念;所需数学的初步介绍可以在附录 B.2 中找到。

2.1 产生随机性:随机序列最有可能

或许与直觉相反,我们从无限二进制序列的情况开始讨论。这些序列中哪些应该被视为我们的二进制过程的随机产物?每个个体无限序列,无论有序与否,在 Cantor 空间上的标准(勒贝格)测度下都是零。我们无法通过考虑一个序列在所有这样的序列集合中所占比例来确定一个序列是否随机。但是,直观上,几乎所有这样的无限序列都应该是随机和无序的,只有少数是有序的(这是 Ville 1939 年首次观察到的)。典型的无限序列是没有模式的;只有特殊情况具有一定的顺序。如果生成这些序列的实际过程是完全确定性的,那么这个过程的典型产物可能不是随机的。但我们更关心的是描述由任何过程产生的所有可能序列中哪些是随机的,而且似乎很明显,大多数产生无限序列的方式,以及由此产生的序列,都是随机的。这符合直观的考虑:

我们在思维中将所有可能的事件分为不同的类别;我们认为那些包含很少数量的类别是非凡的。在抛硬币的游戏中,如果连续出现一百次正面,那么这对我们来说是非凡的,因为在一百次投掷中可能出现的几乎无限组合被分为规则序列和不易理解的规则的序列,而不规则的序列则更多得多。(Laplace 1826 年)

这个肥沃的言论强调了随机序列既应该是无序的,又应该是常见的。在当前框架中:非随机序列的集合应该具有零测度,与所有这类序列的集合成比例——相应地,随机序列的集合应该具有单位测度(Dasgupta, 2011: §3; Gaifman and Snir, 1982: 534; Williams, 2008: 407–11)。

这有所帮助,但作用不大。因为康托空间中有许多单位测度的子集,我们需要一种非任意的方式来选择一个特权的子集。(通常的选择是取所有单位测度子集的交集,但这种方法失败了,因为任何特定序列的单例集的补集都具有单位测度,所以对于每个序列都有一个排除它的单位测度集;因此所有单位测度集的交集都排除了每个序列,所以是空集。)通常的回应是将随机序列定义为空间中具有“良好”属性的所有单位测度子集的交集,并给出一些有原则的界定,以确定哪些属性应该被视为“良好”以及为什么。

例如,如果一个序列是真正随机的,我们应该期望它在长期内倾向于具有我们与(独立、同分布试验的)偶然过程的输出相关的特征。这个序列应该看起来像是真正偶然的预期产物一样无序。因此,这种方法被称为典型性方法来描述随机性。典型性通常是相对于先验概率函数来定义的,因为公平硬币投掷结果的典型系列可能不是不公平硬币投掷结果的典型系列(Eagle 2016: 447)。在当前情况下,我们使用 Lebesgue 测度,因为它是从二进制过程的结果空间的对称性定义的自然测度。

典型的序列应满足所有各种“随机性属性”(Martin-Löf 1966: 604)。这些属性是什么?它们包括大数定律的属性,即在随机序列中,一个数字的极限频率不应偏向任何特定的数字。大数定律声称,以概率 1,无限个独立同分布的伯努利试验序列将具有大数定律的属性。如果我们将注意力集中在作为独立给定的数学实体的结果序列上,而不是作为大量独立伯努利试验的产物,我们可以遵循 Borel(1909)对大数定律的描述。设 Sn(x)是序列 x 的前 n 个位置中出现的 1 的数量(即 ∑nk=1xk),B 是无限序列 x 的集合,使得 Sn(x)/n 的极限当 n 趋向无穷大时为 12。Borel 的定理是 B 的测度为 1;几乎所有无限序列在极限情况下都是关于数字频率无偏的。

显然,大数定律是序列随机性的必要条件。然而,它并不足够。考虑序列 10101010…。这个序列没有偏向性。但它显然也不是随机的,因为它以完全规律和可预测的方式发展。因此,我们需要施加额外的约束。每个约束都将是我们对随机序列期望的另一个随机性属性,包括所有其他“无偏性”的极限属性。

其中一个进一步的属性是 Borel 正常性,也是由 Borel 在那篇论文中定义的。一个序列是 Borel 正常的,当且仅当相等长度的有限数字串在序列中具有相等的频率。Borel 证明了 Cantor 空间中的一个测度为一的序列集合是 Borel 正常的。Borel 正常性是对随机序列施加的一个有用条件,因为它具有这样的结果:序列中没有可预测的模式。对于序列中出现多次的任何字符串 σ,它后面既可能是 1,也可能是 0。这种基于序列先前元素的不可预测性是真正的随机性所必需的。但是 Borel 正常性并不足以保证随机性。Champernowne 序列(Champernowne 1933)是每个连续非负整数的二进制表示中的数字序列:

011011100101110111…

这是 Borel 正常的,但是完全可预测,因为有一个普遍的规律规定了每个索引处序列的值,这不是因为它可以从序列的先前元素预测出来,而是因为它可以从索引预测出来。

我们必须加上另一个条件来排除 Champernowne 序列。我们可以逐步地针对各种问题情况进行处理,逐步引入进一步的随机性属性,每个属性都是随机性的必要条件,最终希望通过将足够多的随机序列聚合在一起来对随机序列进行表征。鉴于 Cantor 空间的复杂结构,这种累积方法的成功前景似乎黯淡。更有希望的更大胆的方法是提供一个单独的随机性属性,它本身是随机性的必要和充分条件,拥有这个属性将意味着拥有我们提到的其他属性(大数性质,Borel 正态性等)。

2.1.1 随机性和赌博系统-冯·米塞斯的解释

冯·米塞斯(von Mises, 1957; von Mises, 1941)是第一个对具有单一随机属性序列的随机性进行更大胆定义的详细而复杂的尝试。假设你被呈现了一个序列的任意子序列 x1,…,xn−1(不一定是连续的成员),并被要求预测 xn 的值。如果这个序列真的是随机的,那么这些信息——序列中任何先前成员的值以及所需结果在序列中的位置——对你在这个任务中没有任何用处。假设相反意味着在随机序列中存在可利用的规律;例如,一个赌徒可以可靠地下注于他们偏好的结果,并确保获得正期望收益,如果他们掌握了这些信息。赌博系统选择在一系列结果中下注的点;一个成功的赌博系统是指所选择的点在整个序列中具有更高的“成功”频率,以便通过使用该系统可以期望比随机更好地表现。但是赌博系统在游戏中未能取得进展表明,真正随机的结果序列并不容易被利用。冯·米塞斯观察到赌博系统的实证不存在成功,将其作为无限序列的随机性的条件,即它们不能被赌博系统利用(他的“Prinzip vom ausgeschlossenen Spielsystem”)。这个想法是,没有一种方法可以在没有类似水晶球的情况下选择一个有偏差的随机序列的成员。

剥离了基于过去结果选择投注结果的非必要展示设备,冯·米塞斯认为,随机性的一个属性是,随机序列不应该是这样的,即任何初始子序列 x1x2…xk−1 的信息都不能提供关于结果 xk 的内容的信息。他通过定义位置选择来正式实现这个想法,位置选择是“以这样的方式选择部分序列,即我们在不使用元素的 [值] 的情况下决定是否应该包含一个元素”(冯·米塞斯 1957 年:25)。然后,他将随机序列定义为这样的序列,即由可接受的位置选择选择的每个无限子序列在原始序列中保留相同的相对数字频率(因此不能选择有偏倚的子序列,表明这是随机性的真正属性)。在我们的情况下,这意味着每个可接受选择的子序列都将以相等的频率出现 1 和 0,满足大数定律的属性。[7] 描述冯·米塞斯随机(vM-random)序列的结果集的一种方式是,它是包含仅具有正确极限频率的无限序列的最大集合,并且在所有可接受的位置选择下闭合。如果一个数字的极限频率为 1,比如序列 111…,那么每个可接受的位置选择都确定一个具有相同极限频率的子序列。冯·米塞斯的意图是得到这个结果,因为这就是具有获得结果 1 的概率为 1 的试验结果的随机序列的样子。然而,这个序列并不满足大数定律的属性。因此,我们修改了冯·米塞斯自己的条件,将 vM-random 序列定义为具有极限频率 12 的最大无限序列集合,并且在所有可接受的位置选择下闭合。

冯·米塞斯最初的提议故意对哪些程序算作可接受的位置选择进行了不精确的界定。这种不精确并不让他担心,因为他倾向于认为对于任何特定的随机集体来说,“正确”的位置选择由上下文决定,而不是固定不变的可规定的。但是他的明确描述存在反例。由于“任何递增的自然数序列 n1<n2<...都定义了一个相应的选择规则,...给定任意的 0 和 1 的序列...在选择规则中有一个选择了给定序列的 1 的规则,所以极限频率被改变了”(Martin-Löf 1969b: 27)。这显然违背了冯·米塞斯的意图,因为他可能打算位置选择应该是可构造指定的,然而 vM-随机性的概念仍然令人困惑,没有更具体的规定。

在丘奇(1940 年)的工作中,出现了这样的规定,他借鉴了当时新明确的有效过程的概念。丘奇观察到

对于一个能在轮盘赌中击败轮盘的玩家来说,一个对应于已知存在但没有明确定义的数学函数的系统是无用的;即使明确定义也没有用,除非它提供了计算函数特定值的方法。...因此,[赌博系统] 应该在数学上表示,而不是作为一个函数,甚至不是作为一个函数的定义,而是作为计算函数值的有效算法。(丘奇 1940 年:133)

教会因此要求可接受的位置选择应该是前面结果序列的有效可计算函数,而不是任意的函数。形式上,我们将位置选择视为从序列 σ 的初始段 x1x2...xi−1 到{0,1}的函数 f,使得选定的子序列 σ'={xi:f(x1...xi−1)=1}。教会的建议是我们只接受可计算(全递归)函数的位置选择。[8] 教会的建议同样适用于冯·米塞斯所关注的序列,即每种结果类型都具有任意非零结果频率的序列;为了得到随机序列,我们再次限制为每种结果的极限相对频率为 12 的正常二进制序列(有时称为教会随机序列)。

正如教会指出的,如果我们采用教会-图灵可计算函数作为可接受的位置选择,很快就会得出可接受的位置选择集合是可数无穷的结论。然后我们可以证明:

定理 1(杜布-瓦尔德定理)。随机序列的集合构成了康托尔空间的一个测度为 1 的子集。

[证明]

因此,冯·米塞斯对随机性的概念在数学上得到了坚实的基础(马丁-勒夫 1969b)。我们可以看到,随机性的各种属性都可以从这个特征中得出。例如,我们可以证明:

推论 1. 每个冯·米塞斯随机序列都是 Borel 正规的。

[证明]

基于赌博系统不可能性的随机性方法的这些成功,然而,被 Ville(1939 年)的一个定理削弱了:

定理 2(Ville)。对于任意可数的位置选择集合{ϕn}(包括恒等式),存在一个无限二进制序列 x,使得:

  1. 对于所有的 m,当 m 趋向于无穷大时,(∑mk=1(ϕn(x))k)/m=12;但是

  2. 对于所有的 m,(∑mn=1xn)/m>12。

也就是说,对于任何可指定的位置选择集合,包括 Church 提出的作为不变适当集合的总递归位置选择集合,存在具有正确极限相对频率以满足大数定律(以及 Borel 正规性)的序列,以及它们所有可接受的子序列,但是这些序列在所有初始段中都是有偏的。[9]

为什么对于随机序列来说这会成为一个问题?大数定律表明,几乎所有的无限二进制序列都具有极限数字频率 12 的属性,但并不说明这种收敛发生的速度有多快,或者初始段的统计属性如何。肯定存在一些序列,它们收敛到 12,但对于所有的 n,Sn(x)/n>12(该序列的平均值正确,但是从上方收敛)。在我们的随机序列的“随机行走”模型中,序列中的每个元素被解释为沿整数线向左(如果为 0)或向右(如果为 1)的一步,这个序列将由一次行走组成,在极限情况下回到原点,但始终(甚至最终)保持在右侧。直观上讲,这样的序列并不是随机的。

实际上,这样的序列确实违反了随机性的至少一个属性,因为在一组序列中,Sn(x)/n 将无限次高于平均值,并无限次低于平均值。如此陈述,这就是对称振荡定律(Dasgupta, 2011: 13)。由于对称振荡定律适用于一组序列,它是随机性的一个合理属性(它自然地与其他随机性属性一起)。Ville 的结果表明,von Mises 关于位置选择的定义无法准确地刻画随机序列,因为它包括违反这一定律的序列(因此不对应于真正随机的随机行走)。实际上,这样的序列甚至不符合 von Mises 的公开目标。正如 Li 和 Vitányi 所说(2008: 54),‘如果你一直对这样的结果序列下注 1,你的累积收益总是正的’。因此,Ville 风格的序列似乎允许成功的赌博,尽管它们不允许以位置选择的方式制定系统。

2.1.2 随机性和有效测试:Martin-Löf-随机性

冯·米塞斯和丘奇确定了一类序列,这些序列在递归位置选择下具有不变的极限频率,满足了一些被认为是随机性特征的度量一随机性属性。但是他们确定的类别过于包容。在这个领域的下一个洞察力是由(马丁-勒夫 1966 年)提出的,他意识到,与其寻找另一个序列的单一属性,这个属性将使得序列满足所有关于随机性的进一步条件,不如简单地采用一个定义,即一个序列是随机的,当且仅当该序列具有所有可以指定的度量一随机性属性。在这里,递归理论再次发挥了作用,因为可以指定的度量一随机性属性的概念等同于要求存在一种有效的过程来测试序列是否违反该属性。这引发了对随机序列定义的非常大胆的方法:

马丁-勒夫随机性: 随机序列是一种不能有效确定违反度量一随机性属性的序列(Downey 和 Hirschfeldt 2010: §5.2; Dasgupta 2011: §6.1; Porter 2016: 461–2)。

回顾附录 B.2 中对有效测度零的定义,马丁-勒夫提出,随机序列是指不属于任何有效测度零序列集的序列,并因此属于每个有效测度一序列集。有效测度零序列集将包含可以有效确定具有“特殊标志”的序列(例如,在每七个位置上都有“1”,或者从未出现字符串“000000”作为子序列)。冯·米塞斯的洞察力之一是没有随机序列会具有任何这些可以有效确定的特殊标志:这样的标志将允许作为赌博系统的一部分进行利用。但马丁-勒夫注意到,所有常用的随机性测度一属性都是有效测度一的。任何违反大数定律或对称振荡定律等属性的序列都会在越来越长的初始子序列上违反。因此,任何此类属性的违反也将是非随机序列的特殊标志,表明具有该属性的序列是不寻常的。由于所讨论的非随机性的不寻常属性是有效测度零的,因此我们可以说随机序列是那些没有以任何有效确定的方式特殊的序列。为了形式化这一点,马丁-勒夫借助显著性检验的语言。他的主要结果有时被表述为随机序列是那些通过所有递归显著性检验的序列(Schnorr 1971: §1)-它们从不具有足够的典型性来促使我们拒绝它们是随机的假设。有关此点的更多详细信息,请参见附录 B.1.1。

注意,对于序列的有效属性的限制在这里是至关重要的。例如,如果我们允许属性与我最喜欢的随机序列 x 相同,那将定义一个测试,序列 x 将失败,即使它是随机的。但根据我们对冯·米塞斯随机性的观察(这仍然是随机性的必要条件),没有有效计算的序列是随机的(如果是的话,就会有一个从选择所有序列中的 1 的算法定义的位置选择)。因此,没有有效的测试可以检查给定的序列是否与某个随机序列相同。

Martin-Löf(1966)的核心结果如下:

定理 3(通用测试和随机序列的存在性)。存在一个 ML-随机性的通用测试;此外,只有一个无穷二进制序列的零测集无法通过此测试。因此,几乎所有这样的序列都是 ML-随机的。

[ 证明 ]

通用测试确实定义了一种有效的度量属性的方法,但是(与正常性或没有有偏倚的可接受子序列不同),它远非是一种自然可掌握的属性。尽管如此,马丁-勒夫的结果确实证明存在满足所有随机性属性的随机序列,并且事实上几乎所有的二进制序列在这个意义上都是随机的。回到维尔的定理 2,可以证明所有的 ML-随机序列都满足对称振荡定律(van Lambalgen 1987a: §3.3)。因此,维尔使用的构造方式产生的 vM-随机序列不是 ML-随机的。所有的 ML-随机序列都具有正确的极限相对频率,因为它们满足大数定律的有效度量属性。因此,马丁-勒夫的随机序列满足我们对公平硬币投掷产生的序列所期望的所有直观属性,但是完全通过参考有效可规定的无限序列集合的显式特征来描述。因此,我们完全根据产品的显式特征而不是可能存在于这些序列生成背后的过程来描述随机序列。

还有其他一些解释和扩展马丁-勒夫关于随机性的解释,采用了相同类型的框架,比如 Schnorr(1971)的解释;有关更多细节,请参见补充材料 B.1.2。

2.2 产品随机性:随机序列最无序

对于无限二进制序列,以有效测试为基础的 Martin-Löf 定义是一个强大且数学上有吸引力的概念。然而,它似乎有一个主要缺陷,即它仅适用于无限二进制序列。(由于序列的有限性可以有效地被肯定地判定,而所有有限序列的集合的测度为零,每个有限序列都违反了一个有效测度为一的随机性属性。)然而,通常情况下,我们很高兴将甚至相当小的有限结果序列描述为随机的。如上所述(§ 2),我们对于正确地这样做的能力存在疑问,因为我们似乎容易对我们所呈现的序列进行错误的描述,并且在要求我们自己生成随机序列时表现不佳。然而,这些文献中没有任何东西表明我们在将随机性的概念应用于有限序列时基本上是错误的。因此,人们可能认为这表明 Martin-Löf 方法过于限制性。

然而,在 ML-随机性的概念中,我们可能会将其有益地应用于有限序列的情况。由于被有效过程生成是无限序列的零测度属性,鉴于只有可数多个有效过程,立即得出结论,没有任何 ML-随机序列可以被有效地生成。这与直观的观点相吻合,即随机序列没有任何有规律的模式,而无论多么复杂的有限算法都必须利用这些模式来生成无限序列。随机序列缺乏使其能够通过算法生成的模式,而非随机序列则展示了这样的模式。然而,这种对有限情况的对比并不直接适用,因为显然存在一种有效过程,使我们能够生成任何特定的有限结果序列-只需在算法的规范中列出这些结果。但是,存在一种相关的对比-即那些仅仅是结果列表的粗糙算法与产生涉及结果序列中的模式和规律的结果的算法之间的对比。这使我们产生了这样的想法:有限随机序列,就像它们的无限表亲一样,不能由利用结果序列中的模式的算法生成。随机序列中的结果因此是无模式的或无序的,这在直观上是随机序列的特征。

2.2.1 Kolmogorov 复杂性和随机性

无序序列在上述意义上是高度不可压缩的。我们能够给出这样一个序列的最佳有效描述——这个描述可以使其他人或计算机能够可靠地复制它——就是简单地列出序列本身。这个特点使我们能够将随机序列描述为那些不能由紧凑算法(相对于目标序列的长度而言)产生的序列。鉴于算法可以通过图灵机指令列表来指定,我们对如何描述算法的长度有一些基本的概念。然后我们可以说,一个随机序列是这样一个序列,它的最短算法产生它的长度大致(下面将解释)与序列本身的长度相同——无法获得更大的算法压缩。这个提议是由 Kolmogorov、Chaitin 和 Solomonov(KCS)的工作所提出的,将随机性描述为序列的算法或信息复杂性。关于复杂性和基于复杂性的随机性方法的综述可参考 Li 和 Vitányi 2008 以及 Downey 和 Hirschfeldt 2010:第一部分。(另请参阅 Chaitin 1975、Dasgupta 2011:§7、Downey 等人 2006:§§1-3、Earman 1986:141-7、Kolmogorov 1963、Kolmogorov 和 Uspensky 1988、Smith(1998:第 9 章)和 van Lambalgen 1995。)

如果 f 是有效可计算的——一个递归函数——我们可以说 δ 是有限字符串 σ 的 f-描述,当且仅当 f 在输入 δ 时产生 σ。我们可以定义字符串 σ 的 f -复杂度,Cf(σ),为最短的能够 f-描述 σ 的字符串 δ 的长度。如果不存在这样的 δ,则 σ 的 f-复杂度为无穷大。因此,f 是一个解压算法,将压缩描述 δ 还原为原始字符串 σ。显然,存在许多不同类型的解压算法。一个无聊的情况是恒等函数(空程序),它将每个字符串映射为其自身。这个函数的存在表明,存在解压算法 f,对于任何有限字符串都有有限的 f-复杂度。然而,任何有用的解压算法都会对至少某些输入描述产生比输入描述更长的输出字符串。

一个例子是这个算法:对于长度为 4n 的二进制字符串 δ 的输入,算法将输入分解为 n 个 4 个字符的块,然后将其转换为输出序列 σ。给定一个块 b1,…,b4,它生成一个由 b1 中包含的符号组成的块,其长度由二进制数 b2b3b4 控制。因此,块 1101 生成一个由五个 1 组成的字符串。通过按顺序连接连续块的输出来获得输出序列。每个字符串 σ 都可以通过这个算法表示,因为将 σ 中的每个 1 替换为 1001,每个 0 替换为 0001 的字符串 σ',当作为输入提供给这个算法时,将产生 σ。因此,对于任何字符串,这个算法都具有有限的复杂度。但是这个算法可以做得更好;例如,如果原始字符串是一个由十六个 1 组成的字符串,可以通过输入这个描述来获得:11111111,这是原长度的一半。实际上,对这个算法的反思表明,对于许多字符串,特别是那些包含相当长的连续 1 或 0 的子字符串的字符串,这个算法可以从较短的描述中重构出原始字符串。

然而,任何算法在压缩字符串方面都有一定的限制。如果|σ|是 σ 的长度,那么如果存在一个 f-description δ 使得 σ=f(δ)且|δ|<|σ|,则称字符串 σ 被 f 压缩。如果一个有用的解压算法满足对于某个固定的 k,|f(δ)|≤|δ|+k,使得 f-description 至少比要压缩的序列短 k 个字符,那么很少有字符串能够被有用地压缩。对于长度为 l 的字符串 σ,存在 2^l 个这样的字符串;因此最多存在 2^l−k 个 f-description;由于 f 是一个函数,最多存在 2^l−k 个可压缩的字符串。因此,作为长度为 l 的所有字符串的比例,最多存在 2^l−k/2^l=12k 个可压缩的字符串。这意味着随着所需压缩量的增加,可压缩序列的数量呈指数级下降。即使在最少的压缩量 k=1 的情况下,我们也可以看到给定长度的字符串中最多只有一半可以被任何算法 f 压缩。

因此,我们的兴趣必须集中在那些整体表现最好的解压函数上。我们可能希望说:对于所有的字符串 σ,如果 Cf(σ)≤Cg(σ),则 f 比 g 更好。不幸的是,没有一个函数在这个意义上是最好的,因为对于任何给定的字符串 σ,如果 f-complexity 为|σ|−k,我们可以设计一个函数 g 如下:在输入为 1 时,输出 σ;在输入为 nδ(对于任何 n)时,输出 f(δ)。(推广到更一般的情况,我们可以在 g 的输入上添加任意长的长度为 m 的前缀,并且对于 2m 个序列,可以实现比 f 更好的压缩。)但是我们可以定义一个复杂度接近优于 g 的 f 的概念,当且仅当存在某个常数 k,对于任何字符串,Cf(σ)≤Cg(σ)+k。f 至少和 g 一样好,这个常数与所讨论的函数无关。如果 f 和 g 都是彼此的复杂度接近优于对方,对于相同的 k,我们称它们是复杂度等价的。

Kolmogorov(1965)证明了存在一个最优的解压算法:

定理 4(科尔莫哥洛夫定理)。存在一种解压算法,它在任何其他程序之上都是近乎优越的。此外,任何这样的最优算法在复杂性上等效于任何其他最优算法(参见 Chaitin 1966 和 Martin-Löf 1969a)。

【证明】

科尔莫哥洛夫称这样的通用函数为渐近最优的(随着|σ|的增加,常数 k 渐近可忽略)。

选择一些渐近最优的函数 u,并定义复杂度(简单地)C(σ)=Cu(σ)。由于 u 是最优的,它接近于恒等函数;因此存在一个 k,使得 C(σ)≤|σ|+k。另一方面,我们也知道对于 C(σ)≤|σ|-k 的字符串数量最多为 12k。因此我们知道,除了长度为 n 的序列中的 1-2k 个序列外,其余几乎所有序列的复杂度都在 n 的 k 范围内。因此,当 n 增加时,对于固定的大 k,我们可以看到几乎所有序列的复杂度大致等于它们的长度。所有这些可以用来精确地定义上述随机性的概念。

Kolmogorov 随机: 我们说一个序列 σ 是 Kolmogorov 随机的,当且仅当 C(σ)≈|σ|。

从我们刚才所说的可以得出结论,对于任意选择的长度 n,都存在随机序列,并且随着 n 相对于 k 的增加,随机序列成为该长度序列的绝大多数。

定理 5. 无法有效地生成给定长度的随机序列。

【证明】

一个直接的推论是,复杂性函数 C 不是一个递归函数。如果是的话,对于任何 n,我们可以有效地计算长度为 n 的任何 σ 的 C(σ)。通过简单地列出所有这样的序列,我们可以在找到第一个使得 C(σ)≥n 的 σ 后停止。但是这样一来,我们可以有效地产生一个随机序列,与定理 5 相矛盾。

Kolmogorov 随机性的概念与我们从 Martin-Löf 解释中得出的关于随机序列无序性的直觉非常契合。它也与关于随机性的其他直觉非常契合——随机序列没有一个简短的描述,因此它们不会按照计划产生。因此,Kolmogorov 随机性也支持冯·米塞斯关于随机性与赌博系统不可能性的直觉,因为没有办法通过一组比序列本身更小的初始数据来有效地产生给定的随机结果序列。没有办法提前预测真正的随机序列,因为没有随机序列可以有效地产生,然而每个可预测的结果序列(直观上)都可以通过指定基于先前结果的方式来生成未来结果的方式来生成。此外,由于对于递增的 k,长度为 n 的随机字符串的数量增加,而对于递增的 n,我们可以选择越来越大的 k,有一种意义上说,绝大多数序列都是随机的;这很好地符合了无限情况下几乎所有序列都应该是随机的要求。最后,可以证明,一个序列的 Kolmogorov 随机性等价于该序列通过一系列统计测试,按照 Martin-Löf 的意义来说——实际上,Kolmogorov 随机序列就是那些通过某种通用的非随机性测试的序列(Martin-Löf 1969a: §2)。

2.2.2 前缀无重复 Kolmogorov 复杂性

简单的科尔莫哥洛夫复杂度度量在直观上是有吸引力的。然而,允许的 f-描述的多样性令人困惑,其中包括许多难以处理的编码。特别地,对于给定的解压算法 f,存在 f-描述 γ 和 δ,使得 δ=γ⁀τ,其中 τ 是某个字符串。这是一种低效的编码,因为如果 γ 既可以作为一个代码本身出现,又可以作为另一个代码的初始部分出现,那么算法在检测到可理解的输入后不能立即“即时解码”其输入字符串,而必须等到扫描和处理完整个输入后才开始解码。一种高效的编码,使得没有可接受的输入是另一个可接受输入的初始子串,被称为前缀自由编码(因为没有成员是任何其他成员的前缀)。一个很好的例子是电话号码的编码:电话交换机可以在识别到一串数字的输入时立即连接您;一旦输入了一个来自前缀自由集合的可接受代码,就不会有其他可接受的代码跟随它。

前缀自由编码在许多实际目的上是有用的,并且它们也被证明在定义随机性方面是有用的(正如我们将在 §2.3 中看到的,它们在避免定义无限科尔莫哥洛夫随机序列时是特别重要的问题)。变化是自然的:我们不是依靠序列的简单复杂度来定义其随机性,而是依靠所谓的前缀自由复杂度(Downey 和 Hirschfeldt 2010: §2.5ff; Dasgupta 2011: §8)。

为了明确概念,有一个无前缀编码的示例在脑海中是有用的。假设我们有一个长度为 k 的字符串 σ=x1…xk。这是字符串 σ1 的初始部分,因此如果任何字符串都是可接受的输入,我们就没有无前缀编码。但是,如果编码包含有关编码字符串长度的信息,我们就会知道 σ 的长度 k 小于 σ1 的长度。我们可以如下精确地表达这个想法(使用与定理 4 证明中用于不同目的的类似代码)。假设 σ 的编码是字符串 1 [|σ|] 0σ,即字符串的编码由字符串长度的表示,后跟一个 0,后跟字符串本身。这显然是一个无前缀编码。[12] 这种编码并不特别高效,但更紧凑的无前缀编码确实存在。

无前缀复杂性的概念与普通复杂性完全相同,只是额外限制了给定解压函数 f 的可接受 f-描述形成一个无前缀集合。通过适当选择编码,我们可以得到一组随着长度增加而单调增的 f-描述集合,即如果|γ|<|δ|,则|f(γ)|<|f(δ)|。我们的定义与之前大致相同:给定具有无前缀域的解压函数 f,字符串 σ 的无前缀科尔莫哥洛夫复杂性,表示为 Kf(σ),是 σ 的最短 f-描述的长度(否则为无穷)。由于 1 [|σ|] 0σ 是 σ 的有限无前缀编码,我们知道至少存在一些具有有限 Kf 的无前缀解压算法适用于每个字符串。与之前一样,我们可以证明存在比这个更好的解压算法,事实上,存在一个通用的无前缀解压算法 u,对于每个其他算法 m,存在一个 k 使得对于所有 σ,Ku(σ)≤Km(σ)+k(Downey 和 Hirschfeldt 2010: §2.5)。我们定义 K(σ)=Ku(σ)。

由于无前缀编码集是所有可能编码集的子集,我们通常应该期望 C(σ)≤K(σ)。另一方面,我们可以构建一个通用的无前缀算法 u,具体如下。一个通用图灵机 u'以我们希望模拟的图灵机的哥德尔数和我们希望给予该机器的输入作为输入。让我们将这两个输入连接成一个更长的输入字符串,该字符串本身是唯一可读的;然后我们将该更长的字符串编码成我们的无前缀编码。编码是有效可计算的,显然,所以我们可以将一个解码机与我们的通用机器 u'连接在一起;对于一个可接受的无前缀字符串输入,解码器将将其分解为输入字符串,然后将输入字符串分解为哥德尔数和输入,并在这对输入上运行机器 u'。根据我们选择的特定编码方式,我们可以建立各种 K 的界限;我们已经建立的一个明显的界限是 C(σ)≤K(σ)<C(σ)+2|σ|。通过使用更高效的无前缀编码 u'描述,我们可以建立更好的界限。[13](关于 K 和 C 之间的联系的更多结果,请参见 Downey 和 Hirschfeldt 2010:§§3.1-3.2。)

有了无前缀复杂性,我们可以定义:

无前缀科尔莫哥洛夫随机性: 一个字符串 σ 是前缀自由的科尔莫哥洛夫随机的,当且仅当 K(σ)≥|σ|(模除一个加法常数)。

再次,存在前缀自由的随机序列,因为我们知道存在普通的随机序列,并且考虑到前缀自由编码的长度更长,我们知道普通随机序列的前缀自由编码通常比任意编码更长,因此也是随机的。实际上,前缀自由的随机序列会更多,因为在 K 下字符串的压缩效果不如 C。然而,K 和 C 的行为相似到足以使普通科尔莫哥洛夫复杂性成功地捕捉到我们对随机性的直觉,这种标签“科尔莫哥洛夫随机”通常用来指代前缀自由的科尔莫哥洛夫随机序列。

2.3 施诺尔定理:科尔莫哥洛夫随机性和最大似然随机性相等

无论是普通的还是无前缀的科尔莫哥洛夫随机性都能提供对有限序列随机性的满意解释。正如我之前所提到的,当我们试图以最直观的方式将普通的科尔莫哥洛夫随机性扩展到无限序列的情况时,会遇到一个困难,即通过将无限序列定义为科尔莫哥洛夫随机性当且仅当所有有限初始段都是科尔莫哥洛夫随机的方式。然后会发现没有任何无限序列是随机的。为什么呢?因为以下定理表明,不存在这样的序列,使得它的所有初始段都是随机的:

定理 6(马丁-勒夫 1966 年)。对于任意足够长的字符串,总会存在一些相当可压缩的初始段。(另见 Li 和 Vitányi 2008 年:§2.5.1 和 Downey 和 Hirschfeldt 2010 年:§2.1。)

【证明】

这种初始子序列复杂性的下降将在一个随机无限序列中无限次发生,这种现象被称为复杂性振荡(Li 和 Vitányi 2008:§2.5.1)。这种现象意味着“很难用 C-复杂性的术语精确地表达一个通用的顺序测试”(Li 和 Vitányi 2008:151),而能够精确完成的最好方法是找到能够用普通科尔莫哥洛夫复杂性来表达的上下界,其中 ML-随机序列的集合落在其中(Li 和 Vitányi 2008:§2.5.3)。

然而,复杂性振荡现象对于前缀自由科尔莫哥洛夫复杂性并不构成如此重大的问题。复杂性振荡确实存在,但事实上,前缀自由编码的低效性在这里是有益的:“K 超过 C 太多,以至于前缀的复杂性不会低于前缀本身的长度(对于随机无限 ω)”(Li 和 Vitányi 2008:221)。也就是说,虽然一些初始片段的复杂性下降,但它始终大于前缀的长度。因此,可以统一地说,当 x 是一个无限序列时,对于其任何初始子序列 σ,K(σ)≥|σ|。这表明我们可以以直接的方式将前缀自由科尔莫哥洛夫复杂性扩展到无限情况:无限序列 x 是前缀自由科尔莫哥洛夫随机的,当且仅当每个有限初始子序列都是前缀自由科尔莫哥洛夫随机的。

有了这个定义,我们得到了一个非常引人注目的结果。无限前缀自由科尔莫哥洛夫随机序列的类肯定是非空的。事实上:它就是 ML-随机序列的类!

定理 7(Schnorr)。一个序列是 ML-随机的当且仅当它是前缀无重复的 Kolmogorov 随机的。

【证明】

Schnorr 的定理证明了我们确实捕捉到了直观的随机性概念。不同的直观起点产生了相同的随机序列。这被认为是 ML-随机性或等价地(前缀无重复的)Kolmogorov 随机性真正捕捉到了直观的随机性概念,就像图灵机、Post 机和递归函数的巧合被认为是对于 Church 的论题的证据一样,即任何一个这些概念都捕捉到了直观的有效计算概念。因此,Delahaye(1993)提出了 Martin-Löf-Chaitin 论题,即这两个定义中的任何一个都捕捉到了直观的随机性概念。如果这个论题是真的,那么至少会削弱一些关于随机性的怀疑论断,比如 Howson 和 Urbach(1993: 324)声称“似乎非常怀疑是否存在一个可以解释的唯一的随机性概念”。

对于马丁-勒夫-柴廷论题,尽管这两个数学概念之间存在数学上优雅的收敛,但仍有一些理由对其持怀疑态度。首先,对于不将随机性主要视为序列属性的随机性解释,存在相当多的直观支持,而这些其他解释同样可以进行数学严格化(尤其是在第 6.2 节讨论的“认识论”随机性理论以及第 7.2 节讨论的随机性作为不确定性的理论)。其他直观概念的存在使得随机性的情况与据称类似的丘奇论题的情况有所不同,后者没有可靠的替代有效计算特征的描述。

即使我们接受随机性与无序一样,根本上是一种产物概念,也有一些候选集在施诺尔论题所确定的集合附近,也可能值得被称为随机序列的集合。最明显的是,施诺尔自己对随机性的理解(第 2.1.2 节;补充 B.1.2)。施诺尔(1971)认为,出于技术和概念上的原因,施诺尔随机性作为直观概念的解释应该优先于马丁-勒夫随机性。虽然已经给出了与 ML-随机性和科尔莫戈洛夫随机性收敛类似的结果(Downey 和 Griffiths 2004),但是对于施诺尔随机性的相关可压缩性概念直到最近才被知晓,并且肯定比科尔莫戈洛夫随机性更加直观清晰。此外,由于 ML-随机序列集合是施诺尔随机序列集合的严格子集,前者的任何问题成员也同样是后者的问题成员;当然,会有施诺尔随机序列未通过某些马丁-勒夫统计测试,这可能导致一些人从一开始就否定施诺尔概念的可行性。

Schnorr 的结果显示前缀自由的科尔莫哥洛夫复杂性和 Martin-Löf 的随机性之间的收敛是非常有启示性的。正如已经清楚的,其他随机性概念的存在——包括 Schnorr 随机性以及其他一些提议(Li 和 Vitányi 2008: §2.5; Porter 2016: 464–6)——表明我们在接受其建议时应该保持一定的谨慎。

这在 Porter 最近的论证(2016: 469–70)中尤为明显。他考虑了一种关于可计算函数的某种概要特征,类似于这样:对于每个具有属性 Pi 的可计算函数 f,当且仅当 x 对应于一个随机序列时,f 在 x 处可微。事实证明,对于每种随机性的意义(ML 随机性、Schnorr 随机性、可计算随机性等),都存在一些与可计算函数相关的属性。最重要的是,这些属性中没有一个看起来比其他属性更自然或更规范。例如,具有有界变差的可计算函数在 Martin-Löf 随机点处可微,而非递减的可计算函数在可计算随机点处可微。对于 Martin-Löf-Chaitin 论题来说,困难在于:这些结果给出了关于各种函数的可微性的典型序列的概念。不幸的是,这些典型序列的概念彼此不一致。与 Church 的论题不同,在那里所有有效计算的概念都是一致的,这里我们有一个情况,各种典型序列的概念与彼此不一致(尽管有显著的重叠)。Porter 得出结论:“没有单一的随机性定义可以捕捉到每个在数学上显著的典型点集合”(Porter 2016: 471)。

那个结论可能是合理的。但我们可以在很大程度上回避争论,即是否存在一个单一精确的随机性概念,完美地回答我们对随机序列的直观概念。科尔莫戈洛夫-马丁-勒夫随机性是随机性算法方法的一个合理且代表性的典范,并且几乎与任何其他合理的随机性定义几乎完全重叠。它在这里被采用为对序列随机性的有用工作解释。我在下面提出的关于随机序列和概率之间联系的困难和问题,与哪个特定的序列集合被计算为随机(大多数与过程概念的概率和任何算法随机性概念之间的不匹配有关,后者之间的差异相对不重要)没有任何实质性的关系。因此,尽管下面的观察意图推广到施诺尔随机性和其他提出的随机序列定义,但我将只明确处理 KML 随机性。

3. 细化的常见论点

在前两节中讨论和澄清的概率和随机性的概念是在科学和哲学上最有成果的。无论这些术语的普通语言用法与这些科学概念的精确性之间存在多少不匹配,这些概念的实用性弥补了这一不匹配。这在随机性的概念中尤为明显,因为哲学家对于概率的理解更接近我们对概率的普遍认识。根据这些概念,随机性基本上是一个产品概念,首先适用于结果序列,而概率是一个过程概念,仅适用于产生一个具体结果的过程或概率设置。当然,常用术语有些含糊不清;例如,不清楚是否将随机抽样视为产品概念,因为它与随机性有关,还是将其视为过程概念,因为抽样是一个过程。事实上,过程的正统观点是它应该由一个随机序列来控制;我们列举出人口,并在预先选择的随机序列中,如果第 n 个结果是 1,就抽取一个个体 n。(当然,所选择的样本在某种直观意义上可能不是随机的;然而,它不会因为选择过程中的任何缺陷而有偏差,而只会因为运气不好。)

有了这些精确的概念,我们可以回到将概率和随机性联系起来的常见论点 CT。根据我们将单个结果或结果序列视为主要的两种解读可供选择:

CTa: 如果一个结果序列是随机的,那么它发生的概率是随机的。

CTb: 如果一个结果发生的概率是随机的,那么它包含在一个随机结果序列中。

鉴于标准的概率计算,任何一系列结果本身就是一个结果(在定义在结果的 σ-代数上的概率函数的域中,就像标准数学概率一样);因此,我们可以不失一般性地只考虑(CTb)。但是,如果我们考虑在可能发生的情况下的有机结果,而只有很少的事件发生,就会出现问题。可能发生的事件可能都是同一类型的,这种情况下结果序列就不会是随机的。这个问题类似于频率观点的“单一案例问题”(Hájek 2012: §3.3),因为随机性和频率一样,是结果序列的一个属性。问题的出现是因为结果可能太少或太有序,无法正确地代表它们所属的整个序列的随机性(所有无限随机序列至少有一些非随机的初始子序列)。在频率主义的情况下,最常见的解决方案是选择一个假设的结果序列-在相同条件下产生的结果序列,具有稳定的极限频率(von Mises 1957: 14-5)。同样,我们可以将常见的论点改进如下:

RCT: 结果发生是偶然的,如果在相同条件下重复足够多次生成该结果的试验中,我们将获得一个包括该结果的随机序列(或者该结果是其子序列)。

这里的想法是,如果随机结果足够频繁地重复,将产生一个适当均匀的随机结果序列。如果试验实际上重复次数足够多,这个序列应该是实际的结果序列;科尔莫哥洛夫随机性的整个目的是允许有限序列成为随机的。

随机对照试验在直观上是有吸引力的,即使我们在上面概述的方式中区分了过程和产品的随机性。它得到了重要支持,因为经验表明,足够频繁地抛掷公平的硬币总是会产生随机序列,并且随机结果序列的存在是机会的有力证据。RCT 的真理解释了机会认识论的有用限制,因为如果我们看到一个实际的有限随机序列,我们可以推断构成该序列的结果是偶然发生的。然而,在接下来的两节中,我们将看到即使对于 RCT 来说,也存在明显的反例,给 Commonplace Thesis 带来了严重困难。在第 4 节中,我们将看到一些明显有偶然结果但没有随机性的情况,而在第 5 节中,我们将看到一些明显有随机性但没有机会参与的情况。

当我们考虑将假设的频率主义作为概率理论的命运时,RCT 存在一个根本性问题。因为在真正的概率情况下,似乎没有确切的事实可以说明会有什么样的结果序列:正如 Jeffrey(1977: 193)所说,“无法预测硬币在未进行投掷的情况下是否会正面朝上。这就是概率的意义所在。”许多哲学家(例如 Hájek 2009)都像 Jeffrey 一样对 RCT 右侧所需的假设序列的存在和可处理性持怀疑态度。然而,有一些理由认为 RCT 在这方面会比假设的频率主义更好。特别是,RCT 并不打算用这些假设的序列来分析概率,因此我们可以依靠大数定律来指导我们的期望,即概率为 1 时,概率过程会产生某些结果频率;至少这可以提供一些理由认为结果序列将按照 RCT 所需的方式行为。即便如此,人们可能会怀疑假设的频率主义的许多困难也会在 RCT 中再次出现。然而,这些困难源于与概率过程的仅可能的证据表现相关的一般问题,与随机性无关。相比之下,下面讨论的异议特别关注概率和随机性之间的相互作用。因此,这些更一般的潜在担忧将被搁置一边,尽管不应被遗忘——它们甚至可能是 RCT 最重要的问题(如果不存在正确类型的仅可能序列,我们必须退回到 CTa 或 CTb 及其问题)。

4. 概率而无随机性

4.1 不具代表性的结果序列

公平的硬币——即正反面的机会相等——被无限次抛掷,并且每次都落在正面上是可能的。在标准的概率计算中,无限次正面的序列发生的概率为零。(事实上,即使在大多数非标准的概率观点中,它的概率也为零:Williamson 2007。)然而,如果这样的结果序列确实发生了,它将是偶然发生的——合理地假设,如果每个单独的结果都是偶然发生的,那么由它们组成的复杂事件也是偶然发生的。但在这种情况下,我们将会有一个偶然发生的结果,然而明显合适的结果序列并不是 KML 随机的。这种例子利用了一个事实,即随机序列是任何过程可能结果序列的一个度量一集,无论是偶然的还是其他的,度量一并不意味着每一个。

这个反例可以被反驳。因为虽然有可能一个公平的硬币在无限次抛掷时只落在正面,但这个全正面的结果序列可能并不是一个合适的序列。因为如果我们考虑 RCT 中涉及的反事实——如果一个公平的硬币被无限次抛掷会发生什么——我们会说:它大约一半的时间会落在正面。(根据标准的,尽管有争议的,Lewis-Stalnaker 反事实语义:Lewis 1973)虽然全正面的结果序列是可能的,但它并不发生在任何一个最近的可能性中,其中一个公平的硬币被无限次抛掷。

如果我们采用非还原主义的解释/原理来解释概率,那么这种抵抗方式是相当不合理的。因为在这种观点下,关于发生事件序列的统计属性和概率之间存在任意大的差异的情况并不矛盾,而且似乎这种可能性在相关方面与反映概率的发生结果统计相同。特别是,由于全为正面的序列有一定的概率发生,根据 BCP(最佳解释原则),存在一个与我们的世界共享历史和法则的物理可能性,在这个可能性中全为正面的情况发生。这看起来像是与我们自己非常接近的一个合理的可能性。

从还原主义的概率观点来看,前景看起来相当乐观(附录 A.3)。在这种观点下,我们可以说,在一些接近的可能性中,出现无限正面序列的世界与我们的世界非常不同;它们在法则或历史上与我们不同。在这样的世界中,正面的概率更接近于 1(反映了如果一个硬币被无限次抛掷,它很可能每次都正面朝上)- 这个硬币毕竟不是公平的。因此,对于任何还原主义概率真正为 0.5 的情况,该情况或其最近邻的适当结果序列实际上都是与结果频率无偏的。也就是说,它们至少满足大数定律的性质;并且可以认为它们还满足其他随机性属性。因此,从这个观点来看,从这些极端结果序列的可能性中并没有反对 RCT 的反例。这个回应取决于由 Lewis(1979a)和 Williams(2008)开发的还原主义概率条件事实的相似性度量的成功;特别是后者的构建引用了相似性和随机性之间的密切联系。(Hawthorne 2005 批评了 Lewis 的原始构建。)

然而,我们不需要使用如此极端的例子来说明这一点。因为几乎任何不具代表性的结果序列都存在相同的现象。一个公平的硬币,投掷 1000 次,有很大的概率出现超过 700 次正面。但是,包含超过 700 次正面的任何 1000 次投掷结果序列都是可压缩的(正面的连续出现足够常见,可以被高效的编码算法利用,而 1000 次结果足够长,可以淹没定义通用无前缀科尔莫哥洛夫复杂度所涉及的常数)。因此,任何这样的结果序列都不是随机的,即使它很容易通过随机性产生。抵制这个反例的唯一方法是拒绝承认这样的结果序列可以是 RCT 中的适当序列。这是不合理的,因为这样的序列可以是实际存在的,并且足够长以避免单一案例问题的类似情况,肯定足够长以适用于科尔莫哥洛夫定义的随机性。拒绝将这样的序列视为合适的唯一原因是为了挽救 RCT,但在这种情况下,这显然是个问题。在这种不具代表性的有限序列的情况下,即使是关于概率的还原论也无法提供帮助,因为可能存在其他考虑足以确定概率,因此我们可以有一个真正公平的机会,但结果序列却是有偏差且非随机的。

4.2 参考类问题

任何给定的令牌事件都是许多不同类型试验的实例:

很明显,每个个体事物或事件都具有无限数量的可观察属性或性质,因此可以被视为属于无限数量的不同类别的事物...(文恩 1876: 194)

假设莉齐在星期二抛硬币;这个特定的硬币抛掷可以被视为硬币抛掷;星期二的硬币抛掷;莉齐的硬币抛掷;莉齐引起的事件等等。每种方式都会产生不同的结果序列,其中一些可能是随机的,而其他的则不是。每个结果序列都由一种同质化的试验统一;因此,它们都可以作为 RCT 中的适当序列发挥作用。

如果概率也相对于一种试验类型,那么这就不是一个问题,因为我们可以在 RCT 的两侧明确地表明对参考类别的选择依赖。如果概率是相对频率,那么很容易理解概率是相对于一种试验类型的。但是概率并不是频率,而且单个事件的概率几乎普遍被认为不仅对于特定事件有明确定义,而且对于该事件是唯一的。我们自然地谈论这个硬币在下一次投掷中正面朝上的概率,概率被认为是直接与可能的结果相关的属性,而不是通过某种特定描述将该结果作为这种或那种试验实例的中介。此外,为了使概率在主要原则(§1 和附录 A.1)中发挥作用,对于给定事件必须存在一个唯一的概率,以指导我们的理性置信度,因为我们只对陈述该事件发生的特定命题有一个置信度。(事实上,无法确定唯一的参考类别,其中频率就是概率的频率,被认为是对频率主义的决定性反对意见。)因此,在对概率的标准理解中,RCT 的左侧和右侧存在不匹配。这就引发了对 RCT 的反例,如果我们选择一个具有唯一的非平凡单次概率的事件,但是至少有一种分类方式可以使得产生该事件的试验的所有结果序列不是随机的。一个平凡的例子可能是这样的:抛掷硬币并且正面朝上。这个事件是偶然发生的,但它属于“抛掷硬币正面朝上”的类型,而该类型的所有结果序列并不是随机的。

自然反应——以冯·米塞斯(von Mises)[14] 为例,大多数频率学派的回应是缩小可用的参考类别范围。(正如附录 A.3 中所述,许多频率学派明确表示概率是自然过程重复中的频率。)Salmon(1977)提出了客观均匀的参考类别(这些类别不能通过任何相关属性分成不同的子类,这些子类在属性频率上与原始参考类别不同)。Salmon 的提议实际上是均匀参考类别是随机序列,其明显的循环性几乎不构成对当前反对意见的回应。Reichenbach(1949: 374)提出“通过考虑可以编制可靠统计数据的最窄类别进行”,这不是循环的,但它未能回应反对意见,因为它不能保证只有一个这样的类别。很可能有多个“窄”的类别,可以收集可靠的统计数据(Gillies,2000: 816)。在当前背景下,这将等同于足够长的序列,以便对其随机性或缺乏随机性进行可靠判断。

这个反对意见要求事件的概率对参考类别不敏感。最近,Hájek(2007)认为没有一个充分的概率概念能够免受参考类别问题的影响,因此无法满足这个要求。(关于相对概率的相关观点,尽管出于完全不同的考虑,参见 Glynn 2010。)然而,正如 Hájek 所指出的,这个结论使人难以理解概率如何引导置信度,而且一个满足关于概率的常识的相对论概率理论是否能够发展起来仍然是一个悬而未决的问题。

4.3 偏见

尽管存在前面提到的两个问题,但许多人发现,最具说服力的非随机概率情况是存在偏倚概率过程的情况。一系列不公平的抛硬币会有不平衡的正反面数量,这样的序列不能是随机的。但是这样的序列,以及该序列中的任何特定结果,都是偶然发生的。

通过使用 Martin-Löf 和 Kolmogorov 风格的考虑,可以看出这样的序列并不是随机的。在后一种情况下,正如我们已经看到的,如果序列足够长,偏倚序列将比无偏序列更易压缩,因为高效的编码将利用偏倚序列通常具有更长的连续数字子序列的事实,因此不会是随机的。在前一种情况下,偏倚序列将违反至少一个度量为一的属性,在无限二进制序列上的标准勒贝格测度中,特别是 Cantor 空间的一个度量为一的子集将是 Borel 正规的(§ 2.1),但没有偏倚序列是 Borel 正规的。因此,在随机性的标准解释中,没有偏倚概率过程的结果序列是随机的,但当然这些结果是偶然发生的。

对于这个问题的一个解决方案是尝试提出一个随机性的特征,使得有偏差的概率结果能够是随机的。值得注意的是,冯·米塞斯最初对随机性的特征构建就是出于这个目的——对他来说,一个随机序列是指没有可接受的子序列,其频率与原始序列中的频率不同。这个解释能够处理任何频率的值,不仅仅是两个结果等频的情况。鉴于马丁-勒夫方法是冯·米塞斯方法的推广,它也可以被调整以允许有偏差的序列是随机的。考虑一个具有结果概率 (p,1−p) 的二进制过程。大数定律的一般形式告诉我们,这样一个过程的独立试验序列的一个测度一集将具有极限频率的结果等于 (p,1−p)。这个测度不是标准的勒贝格测度,而是由所讨论的概率函数定义的测度。我们可以类似地重新解释其他有效的统计随机性测试。正如我们在上面 (§ 2.1.2) 所做的那样,借助统计测试的语言,我们可以将随机序列描述为那些在假设结果概率为 (p,1−p) 的情况下不显著的序列——也就是说,它们符合我们基于底层概率的先验期望。

通过科尔莫戈洛夫复杂性来探讨有偏差序列的随机性,假设我们以某种方式获得了可计算的概率测度 λ,该测度作用于无限二进制序列的集合(也就是说,给定序列的概率可以通过递归函数进行任意精确的近似)。一个序列 σ 是 λ-不可压缩的,当且仅当对于每个 n,σ 的长度为 n 的初始子序列的科尔莫戈洛夫复杂性(记为 σn)大于或等于 -log2(λ(σn))。当 λ 是勒贝格测度(补充 B.2)时,可以推导出

−log2(λ(σn))=−log2(1/2n)=n,

所以我们在这种特殊情况下得到了 Kolmogorov 复杂性的原始定义。有了这个广义定义的 Kolmogorov 随机性,我们可以证明 Schnorr 定理的一个推广(§ 2.3):对于 λ-不可压缩的序列 σ,σ 相对于 λ 是 ML-随机的。在补充 B.1.1 的框架下,根据我们的任意可计算度量 λ,序列的第 n 个顺序显著性测试的度量不大于 1/2n。(有一些潜在的陷阱,可能表明对于任意可计算度量的推广是过度推广:有关详细信息,请参见补充 B.1.3。)

尽管上述方法在采纳了补充建议后允许有偏倚的随机序列,但这是有代价的。虽然勒贝格测度是一个自然的测度,可以直接定义在康托尔空间的序列上,但 ML-随机性的推广需要提供一个独立的可计算概率测度在序列空间上。虽然在我们事先知道概率的情况下可以做到这一点,但在需要从随机结果序列的存在推断出概率存在的情况下是无用的,符合 RCT 的原则——对于每个序列,都存在某种概率测度使其随机,这威胁到从随机性到概率的推理变得琐碎。正如 Earman(1986: 145)也强调的那样,这种对随机性的处理似乎要求产生随机序列的过程的偶然性在序列本身成为随机之前就是概念上的先决条件。这种过程方法对随机性有一些直观的支持,我们将在下面(§ 6.2)回到这个问题上,但它有可能将 RCT 变成一个无信息的琐碎性。相比之下,勒贝格测度具有从康托尔空间的对称性内在地定义的优势,这是其他可计算测度所缺乏的特征。

对于偏倚序列的推广建议的主要困难在于一个简单的事实,即偏倚序列,尽管它们可能反映出产生它们的过程中的概率,但在无序和不可压缩的意义上似乎并不随机。上述推广表明,我们可以定义一个相对于序列潜在概率的无序性概念,但这并不是独立于我们考虑的任何测度的序列本身固有的。正如 Earman 所说(在稍微误导性的术语中):

[T] here is a concept of randomness and a separable concept of disorder. The concept of disorder is an intrinsic notion; it takes the sequence at face value, caring nothing for genesis, and asks whether the sequence lacks pattern.… By contrast, the concept of randomness is concerned with genesis; it does not take the sequence at face value but asks whether the sequence mirrors the probabilities of the process of which it is a product. There is a connection between this concept of randomness and the concept of disorder, but it is not a tight one. (Earman 1986: 145)

As we might put it: Kolmogorov randomness is conceptually linked to disorderliness, and while we can gerry-rig a notion of ‘biased disorder’, that doesn’t really answer to what we already know about the incompressibility of disorderly sequences. While we might well regard a sequence featuring even numbers of heads and tails, but produced by successive tosses of an unfair coin, to be biased in some sense with respect to the underlying measure of process behind it, it is still plausible that this unrepresentativeness of the sequence isn’t conceptually connected with disorder in any interesting sense. It is very intuitive, as this remark from Dasgupta suggests, to take that biasedness—the increased orderliness of the sequence—to contrast with randomness:

if for a sequence x this limiting frequency exists but is not equal to 1/2, then, in view of our underlying fair coin model, x would clearly be biased, not random. … Thus, it is natural to view this ‘stochastic law of unbiasedness’ as a ‘stochastic law of randomness’. (Dasgupta 2011: §3.2)

当一个概率过程中的偏差接近极值时,拒绝观察到的结果是随机的这个想法是非常自然的。(例如,我们可以考虑人类行为 - 虽然人们不是完全可预测的,显然我们的行为不遵循非概率心理定律,但说人们行为是随机的是不正确的。)此外,还有一个相对独立于测度的无序或不可压缩序列的概念,使得有偏序列确实较不无序。我们只需忽略更好的压缩技术的可用性,这些技术确实比无偏序列更能压缩有偏序列,就可以为有偏序列定义一个依赖于测度的无序概念。如上所述,将随机性的概念推广到高度非随机的序列,只要它们反映了高度有偏的过程的机会,就可以称之为随机性。因此,至少在某种程度上,有一些直观上的吸引力支持了 Earman 所提出的随机性是否会分叉的想法,而最好的名字应该是 Kolmogorov 随机性的原始意义。但这将是与 ML 随机性的自然推广形成对比的意义,ML 随机性用于处理任意可计算概率测度,并且与 von Mises 在概率基础中最早讨论随机性时所引用的原始意义相对比。

根据上述讨论,在以一种一般且理论上健壮的方式定义有偏序列的随机性方面已经取得了进展,但在使用该概念来捍卫任何非平凡版本的 RCT 以及有关有偏序列可以真正无序的想法方面仍存在困难。但是,在这里引用的推广确实对 von Mises 有所帮助,因为对于有偏序列的随机性的健壮概念是他频率主义形式的关键要素。

4.4 依赖性:随机性对历史是漠不关心的

对 RCT 的进一步反例与前一个反例有关,即随机性对历史漠不关心,而概率则不然。概率是依赖于历史的。概率依赖于历史的最简单方式是当可能产生某个事件的条件随时间变化时:

假设你在上午 11 点进入一个迷宫,计划通过抛硬币来选择你在分岔点的转向。当你在 11 点进入时,你可能有 42%的机会在中午前到达中心。但在前半个小时内,你可能会迷失在一个很难到达中心的区域,所以到 11 点 30 分,你在中午前到达中心的机会已经降至 26%。但然后你运气好;到 11 点 45 分,你离中心不远,你在中午前到达中心的机会为 78%。在 11 点 49 分,你到达中心;从那时起,你在中午前到达中心的机会永远为 100%。(刘易斯,1980 年:91)

但还有更复杂的历史依赖类型。在刘易斯的例子中,改变机会的属性是代理人离中心的距离。但有些情况下,改变的属性是同一过程的先前结果。实际上,任何连续试验的连续结果不是概率独立的过程都会具有这个特征。

概率而无随机性的一个例子是一个无偏的罐子,球被无放回地抽取。每次抽取(最后一次除外)都是一个偶然事件,但结果的序列不会是随机的(因为序列的前半部分将对后半部分的组成具有重要信息,这可能有助于压缩)。但更有说服力的例子可以在随机过程中找到,其中未来结果的机会取决于过去的结果。这类过程中一个众所周知的类别是马尔可夫链,它产生具有以下属性的离散结果序列:结果的值取决于前一个结果的值(但前一个结果屏蔽了其余历史)。一个二进制马尔可夫链可以是天气(Gates 和 Tong 1976):如果两种可能的结果是“晴朗”和“下雨”,可以合理地假设明天是否下雨取决于今天是否下雨(下雨的一天更有可能在之前的一天下雨);但是,知道今天下雨可以说昨天的天气是无关紧要的。

如果马尔可夫链是一个过程的正确模型,那么即使个别试验结果是偶然发生的,我们应该预期重复试验的整个序列是非随机的。在刚才讨论的天气情况下,我们应该预期晴朗的一天后面是晴朗的一天,下雨的一天后面是下雨的一天。在我们的符号中,11 和 00 应该比 10 或 01 更频繁。但是,所有随机序列都遵循的 Borel 正常性条件要求,每个相同长度的有限结果序列在序列中具有相等的频率。因此,没有 Borel 正常序列,因此也没有随机序列,可以模拟马尔可夫链的结果序列,尽管每个结果都是偶然发生的。

4.5 伪随机序列

至少有一些非随机序列满足随机序列所需的许多测度为一的属性。例如,Champernowne 序列由所有非负整数的二进制数排列而成(即 011011100101110111...),是 Borel 正规的。这个序列并不是随机的,因为合理长度的初始子序列是高度可压缩的。但它看起来至少满足了一些随机序列的要求。这个序列是产生伪随机序列的一种尝试,它至少通过了一些统计测试的随机性,但可以很容易地产生。(伪随机数生成器的主要动力是需要高效地产生在实际应用中具有随机性的数字,用于密码学或统计抽样。)比 Champernowne 序列更好的例子存在,它们满足更严格的随机性属性。[16] 生成伪随机序列的一种简单技术是符号移位算法(Smith 1998: 53)。给定一个初始的“种子”数字 s1,s2,…,sn,算法简单地按顺序输出数字。显然,如果种子是已知的,或者以某种方式可以预期与应用事件相关联,那么这是无用的(在实际应用中,种子通常被选择为我们不希望它携带关于应用的任何信息,例如在简单的计算机伪随机数生成器中,种子可能以某种方式从调用种子的时间派生而来)。对于有限的种子,这个序列显然会在一段时间后重复。符号移位是从种子到结果序列的最简单的可能函数;更好的算法使用种子到结果序列的更复杂但仍可高效计算的函数,以生成具有更长周期的结果序列,远远超过种子的长度(例如...)。,Matsumoto 和 Nishimura 于 1998 年的“Mersenne twister”具有 219937−1 的周期)。

如果种子不是固定的,而是由机会选择的,我们可以有概率而没有随机性。例如,假设计算机有一个表示外部时间的时钟;算法启动的时间可以用作种子。但是,如果算法启动的时间是一个机会问题,正如在许多情况下可能是的那样,那么由高效伪随机序列生成器算法产生的特定序列将是由机会产生的,但不是随机的(因为有一个在明确给定的种子上运行相同算法的程序;由于种子是有限的,将会有这样的程序;并且由于算法是高效的,产生的序列在重复之前的长度将比程序的代码加上种子的长度更长,使得产生的序列可压缩)。无论种子是由机会产生还是在算法中明确表示,结果的序列将是相同的——这是另一种方式,似乎序列的概率性可以变化,而它是否是随机的保持不变。(符号转移动力学也允许 RCT 的另一个方向的反例—参见 § 5.2。)

当然,可以用任何可能由随机性选择输入并以随机性产生结果的算法来做出类似的观点,但输出结果却是高度可压缩的。(伪随机序列生成器在这方面的一个好处是它们被设计成产生高度可压缩的序列,尽管这些序列的可压缩性并不明显)。产生伪随机序列的算法的另一个有趣之处在于它们提供了另一种反例,来反驳随机性和随机性之间的认识联系。我们认为给定序列是随机的合理依据将基于它通过有限多个测试的通过;只要认证比真理要弱,我们就可以合理地认为伪随机序列是随机的,并通过 RCT 推断出机会。但是,即使这是真的,我们可能认为这对于 RCT 在认识上扮演正确角色构成了问题。假设一个人看到一个真正的随机序列并形成了合理的信念认为它是随机的。伪随机序列的存在意味着事物可能看起来正如它们所是的那样合理,但序列却不是随机的。然而,这种情况可以说是我无法知道序列是随机的,从而无法知道序列是由机会产生的(并且可能削弱了从随机性到机会的推理的好处)。

5. 没有机会的随机性

在 4.3-4.4 节中提供的 RCT 的反例强烈暗示了 RCT 的吸引力取决于我们对独立同分布试验的好奇倾向,就像公平抛硬币的伯努利过程一样,被视为概率过程的典范。然而,当我们放眼于更广泛的概率过程时,RCT 从右到左的吸引力就大大减弱了。现在是时候研究 RCT 的另一个方向的潜在反例了。有一些合理的情况下,随机序列可能存在但没有概率。其中许多情况涉及经典物理学的有趣特征,这显然是非随机的,但却产生了一系列表面上随机的现象。不幸的是,在接下来的内容中,无法避免与物理学的细节进行交流。

一个明显的潜在反例涉及抛硬币。有人认为抛硬币是一个确定性过程,因此完全没有概率,但却产生了我们一直将其视为随机序列典范的结果序列。这将在第 7 节中被搁置,那里将对确定性排除概率的主张进行审查。

5.1 短序列

对于许多短序列,即使是最高效的无前缀编码也不会比原始序列更短(因为无前缀编码包含有关序列长度和内容的信息,如果序列非常短,最高效的编码可能是序列本身加上其长度作为前缀,这将比序列更长)。因此,所有短序列都是科尔莫哥洛夫随机的。这可能看起来与直觉相悖,但如果随机性表示缺乏模式或重复,那么太短以至于无法显示模式或重复的序列必须是随机的。当然,通常没有必要说这些序列是随机的,主要是因为在非常短的序列中,我们不太可能谈论序列本身,而是直接谈论其组成的结果。

由于 RCT 的模态特性,对于大多数过程来说,可能会有足够长的结果序列来克服由于实际结果序列的短暂性而产生的“偶然”随机性。但对于不可重复或很少重复的事件来说,即使是仅仅可能的适当参考类别也会很小。而这样的不可重复事件确实存在——考虑一下开始我们宇宙的大爆炸,或者你的出生(你的出生,而不是与之质量上无法区分的对应物的出生),或者内德·凯利的死亡。这些事件都是必然短序列的一部分,因此这些事件是科尔莫哥洛夫随机序列的一部分。但是,说所有这些事件都是偶然发生的是不合理的;没有必要引入概率理论来预测或解释其中任何一个。例如,在凯利的死亡案例中,虽然他死亡的时间可能是偶然的,但他死亡本身并不是偶然的,因为他的死亡是(物理上)必然的。因此,存在着随机序列——即本质上是短序列——其中每个结果并非偶然发生。

自然反应是拒绝短序列往往是随机的想法。RCT 的右侧为此留出了空间,因为我们可以坚持不可重复事件不能重复足够多次以产生充分的序列(无论它们实际上产生的不充分序列是否随机)。问题在于,如果存在单个不可重复的机会事件,我们现在可以有机会而没有随机性。实际上,困难似乎是不可避免的。如果我们仅考虑结果,要么所有的短序列都是随机的,要么没有一个是随机的;根据任何基于产品的概念,无法区分不同的短序列。但是,由于某些单个不可重复事件是有机会性的,而某些则不是,无论我们选择如何处理此类事件的单例序列的随机性,我们都会发现 RCT 的某个方向上存在反例。

5.2 混沌动力学

§4.5 中的简单符号转换动力学具有有限的种子,这允许有机会而没有随机性。然而,似乎存在一些物理情况,其中符号转换动力学是准确表示工作中的物理过程的方法。一个简单的例子可能是混沌理论中常见的拉伸和折叠动力学(Smith 1998: §4.2)。经典例子是面包师的变换(Earman 1986: 167–8; Ekeland 1988: 50–9)。我们将一个系统的状态在任何一个时间点上用实数单位正方形中的一个点(p,q)来描述。我们将该系统随时间的演化规定如下,让 ϕ 成为控制系统随时间离散演化的函数(即,st+1=ϕ(st)):

ϕ(p,q)={(2p,q/2),如果 0≤p≤12(2p−1,(1+q)/2),如果 12≤p≤1

这相当于将单位正方形转换为一个宽度是原来两倍、高度是原来一半的矩形,将右半部分切掉,然后将其叠加在顶部以填满单位正方形。(这种转换让数学家想起烘焙,这说明他们对厨房不太熟悉——类似的转换,将右半部分“折叠”回顶部,更加现实。)如果我们用二进制表示坐标 p 和 q,转换如下:

ϕ(0.p1p2…,0.q1q2…)=(0.p2p3…,0.p1q1q2…)。

所以这是一个简单符号位移的轻微变体,因为 p 坐标是向右的符号位移,而 q 坐标实际上是向左的符号位移。[17]

这种动力学的一个重要特征是它是保度量的,所以如果 X 是单位正方形的子集,μ(X)=μ(ϕ(X))。(这很容易理解,因为基本的无限二进制序列的符号位移动力学是保度量的,而每个坐标可以表示为一个无限二进制序列。)定义集合 L={(p,q):0≤p<12}。我们看到(p,q)∈L 当且仅当 p1=0。由于 p 可以用一个无限二进制序列表示,并且有限二进制序列的一个度量一集是 Borel 正常的,我们看到这个系统的几乎所有状态都是这样的,即随着时间的推移,μ(ϕ(s)∈L∣s∈L)=μ(ϕ(s)∈L)——也就是说,系统在 t 时刻是否在 L 中与其过去的历史是概率上独立的。此外,μ(L)=μ(¯¯¯¯L)。关于这个系统随时间的行为,关于分割{L,¯¯¯¯L},因此是一个伯努利过程,就像一系列公平硬币投掷一样——一系列独立且相同分布的重复的随机过程。如果 RCT 成立,那么一个完全像一个随机过程行为的系统应该以随机序列作为其产物。因此,面包师的变换的结果序列(在这个分割下)是一个随机序列。

但与一系列公平的抛硬币不同,假设它们涉及真正的概率,面包师的变换完全是确定性的。给定一个特定的点(p,q)作为初始条件,系统在每个时刻的状态的未来演化被确定为 ϕt(p,q)。因此,虽然产生的产品是随机的,就像真正的概率过程一样随机,但这些结果并不是偶然发生的;在给定系统的先前状态的情况下,未来的演化根本不是偶然的。因此,我们有一个没有偶然结果的随机序列。(实际上,根据符号转换动力学,在{L,¯¯¯¯L}中系统随时间的演化只是重复起始点的连续数字。)要非常准确,这种情况下的试验是在给定时间点对系统进行采样,并观察每个时间点系统位于粗粒度分区的哪个单元格。这是一个产生随机序列的任意重复试验序列;然而,这些结果中没有一个是偶然发生的。[18] 换句话说:虽然结果序列是随机的,但在这个问题的系统中有一个完全足够的理论,其中概率不起作用。如果概率不起作用,很难看出偶然性如何起作用,因为没有概率函数可以作为置信度的规范,统治可能性,或者是非平凡的并在内在重复试验之间共享。简而言之,在这个系统的动力学中没有任何具备偶然性所需特征的概率函数发挥作用,这似乎是认为这个系统中没有偶然性的强有力理由。

面包师傅的变换提供了一个确定性宏观随机性的简单模型——一个具有 μ-测度保持时间演化的系统,并产生具有伯努利性质的粗粒化状态序列。一个非常有趣的问题是是否存在更加真实的物理系统,也具有相同的特征。我们可以将 n 粒子的经典(牛顿)系统理解为每个时刻都具有一个状态,该状态由 6n 维状态空间中的一个点来描述(每个点都是一个 6n 元组,描述每个粒子的位置和动量)。系统随时间的演化由其哈密顿量来描述,哈密顿量是系统的能量和其他属性的表示。根据李乌维尔定理,哈密顿量下的演化是 μ-测度保持的,因此可以希望至少有一些系统也可以被证明是伯努利的。然而,对于能量在时间上保持不变的封闭系统来说,这通常是不可能的。事实上,对于封闭系统来说,甚至不可能满足一个非常弱的随机性属性,即遍历性。一个系统只有在极限情况下,以概率为一,系统在给定状态下停留的时间量等于对应于该状态的状态空间的(标准)测度(Earman 1986: 159–61; Sklar 1993: 60–3; Albert 2000: 59–60)。虽然伯努利系统是遍历的,但逆向蕴涵并不成立;如果系统从一个状态缓慢地转移到另一个状态,那么它可能是遍历的,而某个时间点的状态强烈依赖于过去的历史(Sklar 1993: 166–7)。虽然已经证明至少有一个具有物理意义的系统是遍历的(雅科夫·西奈证明了盒子中硬球的运动是遍历的,这对于理想气体的统计力学具有重要意义),但很多具有物理意义的系统却不能遍历。 这是所谓的 KAM 定理的结果,该定理指出,在几乎所有存在粒子之间相互作用的封闭系统中,将存在状态空间的稳定子区域-具有正测度的区域,如果系统在这样的区域中启动,它将始终保持在这样的区域内(Sklar 1993: 169–94)。这样的系统显然不能是遍历的。

对于我们的讨论,这意味着:“没有物理上真实的经典系统能够表现出遍历性,因此没有物理上真实的经典系统能够表现出随机性。面包师傅的变换是一个数学上的奇特现象,但不是没有概率的真正随机性的案例,因为像它这样的系统在物理上是不可能的。”这种回应是过早的。存在一些物理上有趣的系统,KAM 定理不适用于这些系统。开放或耗散系统,即不局限于能量恒定的状态空间区域的系统,是一个被广泛研究的类别,因为这些系统是混沌系统的范例。混沌耗散系统的特点有两个(Smith 1998: §1.5):

  1. 存在至少一个状态空间 A 中的状态集(吸引子),当系统最初在其邻域 N(A)中启动时,系统的轨迹最终将进入 A (limt→∞ϕtN(A)⊆A); 并且

  2. 系统对初始条件表现出敏感依赖性:也就是说,在某个状态空间点集合中,这些点彼此之间的距离都在某个任意距离 δ 内,至少存在两个点,在某个时间 t 之后,它们的轨迹会发散至少 ε 的距离。[19]

存在一些物理上现实的经典系统同时具备这两个特征,其中最著名的可能是洛伦兹的大气对流模型(Smith 1998: §1.4; Earman 1986: 165)。这两个特征的结合产生了非常有趣的行为——吸引子的存在意味着系统的状态随着时间的推移会收敛到吸引子的区域,而对初始条件的敏感依赖性意味着在任何时间,接近的状态最终会相距任意远。为了实现这一点,吸引子必须具有非常复杂的形状(它将是一个小测度的区域,但大部分状态空间将在吸引子的邻域内)。对于我们的目的来说,更重要的是,具备这些特征的系统,假设在演化过程中接近的状态发散得足够快,将产生接近伯努利的行为——它将产生快速混合(Luzzatto et al. 2005)。粗略地说,如果一个系统是混合的,那么在一个时间点上系统处于粗粒度状态的存在与在另一个时间点上系统处于另一个粗粒度状态的存在在概率上是独立的,前提是两个时间点之间有足够的时间间隔。这比伯努利要弱(因为伯努利系统的状态在它们之间的任何时间上都是概率独立的),但仍然足够强大,可以合理地从状态空间的粗粒度划分中采样不经常发生的随机结果序列。因此,我们似乎有物理上现实的系统可以产生没有概率的随机行为(另请参阅 Frigg 2004 中讨论的系统)。

实际上,混沌系统的行为在其他方面也会直观地表现出随机性。对初始条件的敏感依赖意味着,无论我们对给定混沌系统的初始状态进行多么准确的有限区分,都会存在与初始状态无法区分的状态(因此与我们对初始状态的了解一致),但这些状态会与系统的实际演化相去甚远。因此,无论我们对初始条件了解多么充分(只要我们没有无限的区分能力),我们都会知道系统可能处于另一个状态,而这个状态将演化为一个可以区分的不同未来状态。由于这种分歧发生得相对迅速,系统无法被预测。(至少根据传闻,洛伦兹的天气模型似乎无法可靠地预测未来几天的天气。)就随机性和缺乏可靠预测而言,我们有另一个理由认为这里存在产品随机性(§ 6.2)。

正如之前所述,支撑这些混沌系统动力学的经典物理理论是一个不涉及概率的理论。因此,我们能够对物理情况进行充分的描述,而不需要借助任何适合扮演概率角色的概率。在给定良好行为的边界条件下,该系统也是确定性的(尽管参见 § 5.3),这也可能被认为排除了非平凡概率的作用。因此,我们再次在性能中看到了随机性,尽管没有任何结果是偶然发生的。

对这一部分思路的抵抗有两个途径。第一个是坚持认为,尽管面包师傅的转变和经典物理学(除了下一节要讨论的担忧)的确定性是真实的,但在这些理论中仍然存在或至少可能存在非平凡的概率。提议是,确定性概率的可能性仍然存在,因此仅仅从确定性的事实中并不意味着我们对 RCT 有反例。结果可能是由先前的条件决定发生的,但(据建议)它们仍然可能是偶然发生的。这个激进的提议在第 7 节中进行了讨论。然而,值得注意的是,即使确定性概率是可能的,这个观察远不能证明在这里讨论的物理理论是具有确定性概率特征的理论。一些确定性理论可能具有概率,但并不意味着所有理论都会有,特别是在像面包师傅的转变这样非常简单的情况下,引用确定性概率似乎没有多大意义:如果经典物理学是真实的,概率将是平凡的或多余的。第二个抵抗途径是声称这里确实存在概率-它是初始条件的概率,在结果的随机序列中重复出现。虽然我们模型中初始条件的勒贝格测度形式上类似于概率函数,但假设它产生真正的概率是一个相当有争议的论点(对于相反的观点,请参见 Clark 1987)。其他初始条件也可能发生;然而,认为(不知何故)存在一个概率过程,最终选择了实际发生在我们世界的初始条件,似乎是错误的。相反,初始条件是它们所是的似乎是一个无法解释的事实。 如果存在概率,那么它们不能是动态的概率,也就是物理学中熟悉的那种概率,以及我们在 § 1.2 中讨论过的那种概率。关于可能性的随机初始条件的一些最近的论证在以下补充文件中讨论:

补充 D. 概率和初始条件

但无论是否能使偶然的初始条件的想法起作用,事实仍然是在随机序列中最多只有一个结果——第一个结果——是偶然发生的。随后的状态并不是,然而 RCT 致力于在这些状态转换中存在(动态的、过渡的)机会。

5.3 古典不确定性

尽管在前一节中描绘了古典确定性的整洁图景,但众所周知,古典物理实际上并不是确定性的。这些不确定性的情况并不会削弱前一节中对古典力学的应用。但是古典不确定性可能会为 RCT 带来自身的问题。关于本节主题的有用进一步材料可以在因果决定论条目中找到(Hoefer 2010: §4.1)。

就当前目的而言,当系统在某一时刻的状态不能唯一确定系统在未来某一时刻的状态时,就发生了不确定性(见 § 7)。为了展示经典情况下的不确定性,只需给出某一时刻某系统的状态,并指定两个互不兼容的未来状态,而这两个状态都与牛顿运动定律和初始状态一致即可。

为了帮助我们完成这个任务,有一个关于牛顿力学的事实是很有用的:这些定律是时间反演不变的(Albert 2000: ch. 1)。也就是说,对于状态空间中的每条合法轨迹,都存在另一条合法轨迹,通过将第一条轨迹中的每个瞬时状态映射到其图像状态,其中粒子的位置相同但动量分量的符号相反,并按相反的顺序运行轨迹。这些图像状态是粒子处于相同位置但以完全相反方向运动的状态。因此,对于每个合法过程,其逆向运行的过程也是合法的。(如果这些轨迹如此合法,为什么我们看不到它们?这是热力学不对称的深层问题,在附录 D 中简要讨论。)

两个例子用来说明经典不确定性的可能性。一个非常优雅的最近的例子是“诺顿圆顶”(Norton 2003; 2008)。一个质点在 t∗ 时刻静止在一个圆顶(具有特定形状)的顶点上。牛顿的运动方程的一个明显解是,在所有 t>t∗ 的时刻,质点继续保持静止。但是,诺顿指出,还有另一个解:在 t=t∗ 时刻,质点静止,但在每个 t>t∗ 的时刻,质点都在某个方向上运动。这意味着质点会在任意时间以任意方向自发地移动。确定性显然被违反了:对于给定的时间 t∗,在 t′时刻有一个状态,质点仍然停留在圆顶的顶点上;而在许多不兼容的状态中,在 t′时刻质点在圆顶的其他位置。在 t∗ 时刻的条件中没有确定哪个未来状态将会发生。理解圆顶例子的一个简单方法是考虑它的时间反演:一个球在圆顶的表面上给予一定的初始速度朝向顶点运动。速度太小,球会落在顶点之前;速度太大,球会越过顶点。但是,速度恰到好处,球会精确地停在顶点上,并保持静止。这个系统的时间反演就是最初的圆顶例子。

一个更奇特的例子涉及“太空入侵者”(Earman 1986: ch. III)。这些粒子在时间 t 时没有空间位置,因此在时间 t 时不构成状态的一部分,但是它们从“空间无限远”中移动,并在时间 t'时具有位置。如果我们调用时间反演不变性,我们可以更清楚地看到这个例子。考虑两个静止并且在 t∗ 附近的点粒子 a 和 b。从 t∗ 开始,对 a 施加力,使得 a 远离 b 的速度无限增加。这是可能的,因为在经典物理学中速度没有上限。实际上,让 a 的速度增加得足够快,以至于在某个有限时间 t',a 没有有限速度,因此“在”空间无限远。这个系统的时间反演是,粒子 a 在 t'时没有位置,但在每个 t>t'的时刻具有位置并且速度持续减小,直到在 t∗ 时停止。这个系统违反了上述给出的确定性。在 t'时的状态包括一个静止的单个粒子 b。这个状态可以在 t∗ 时跟随刚刚描述的被太空入侵的状态,或者可以在 t∗ 时跟随 b 仅仅继续静止的不相容状态。法则中没有任何规定排除这两种转变。当然,这个模型并不特别真实——力是从哪里来的呢?但是已经提出了更具物理现实性的系统,展示了相同的一般结构;Earman 提到了一个由 Mather 和 McGehee(1975)提出的系统,其中涉及四个点粒子,它们的运动方式使得它们在碰撞中对彼此施加的力在有限时间内无限远离彼此(另请参阅 Saari 和 Xia 1995)。

尽管经典力学是不确定的,但它并不是随机的。我们没有理由认为我们需要或者能够为我们的不确定系统中的可能未来状态分配概率分布。诺顿关于他的圆顶说道:

有人可能认为...我们可以为各种可能的结果分配概率。牛顿物理学中没有要求我们分配概率,但我们可以选择尝试为了我们自己的概念舒适而添加它们。就自发运动的方向而言,这是可以做到的。圆顶表面关于顶点的对称性使我们很自然地添加一个概率分布,将等概率分配给所有方向。复杂之处在于,我们无法以类似的方式为自发激发的时间分配概率,以尊重解的物理对称性。这些解将所有候选激发时间 T 视为平等。试图使每个候选时间等可能的概率分布是不正确的,即它不能将单位概率分配给所有不相交的结果的并集。[22] 或者一个正确的概率分布只能通过创造额外的物理属性来定义,这些属性不是由圆顶和质量的物理描述、牛顿定律和引力定律给出的,并且将它们不自然地嫁接到物理系统上。(诺顿 2003:9-10)

诺顿提出的关于在第二种情况下无法对一组可数时间间隔进行均匀分布的观点也适用于我们可能期望太空入侵者出现的时间。因此,看起来我们有了无随机性的不确定性。

我们可以使用这些构造来找出对 RCT 的反例。让一个圆顶系统准备好,并保持 5 秒钟。如果球在顶点上保持静止,称结果为'0'。如果球移动,并且在 5 秒钟结束时在圆顶上的其他位置,称结果为'1'。这两种结果都是系统在 5 秒钟后的物理可能的最终状态。如果系统反复准备在这个状态下,物理上可能得到这些重复试验的结果的随机序列。当然,这些结果不能由某个有限算法产生,因为不确定性动力学允许每个物理可能的结果序列,包括那些与每个算法可压缩序列在某个地方不同的序列。在无限未来的情况下,系统物理上可能产生每个无限二进制序列,但其中至多可数无穷多个是非随机的。因此,从 KML 意义上讲,这些设置物理上可能产生一个随机结果序列。但是,我们在这种情况下没有一个关于结果的概率分布。随机性只需要两个可区分的可能结果和产生任意序列的可能性。概率要求两个可区分的结果,每个结果都有一定的概率。这些案例表明,概率和可能性是不同的 - 在某些情况下,一个过程可能有两个可能的结果,但两者都没有任何概率(甚至没有零概率)。

5.4 无放回抽样

最后一个反对意见是基于 §4.4 中的一句话。考虑一个装满黑白球的大有限容器。球的数量足够大,以至于抽取结果的序列足够长,具有随机性。因此,假设我们从这个容器中随机选择,不断抽取球直到容器为空。结果的序列是随机的,或者至少可以是随机的——它最好是随机的,因为这个序列满足了作为总体简单随机样本的所有条件。(我们可以给实验总体的每个成员附上一个编号,并且如果第 n 次抽取是黑球(白球),则给第 n 个成员服用一颗活性物质(分别是安慰剂)。)但在这个过程中,随着球的数量减少,结果变得越来越不随机。由于球的数量是有限的,总会有一次抽取,使得它是黑球的概率要么是 1,要么是 0,因此无论发生什么结果,它都不是偶然发生的。但是,我们有一个包含了一个不是偶然发生的结果(比如抽到了黑球)的随机序列,这与 RCT 相矛盾。

一种回应是说,这个最后的结果是偶然发生的,因为在抽签开始时,有一个白球最后被抽中的正面机会,也有一个黑球被抽中的正面机会。这种回应忽视了机会的时间依赖性。如果最初有 n 个球,并且我们让“Lastie”来命名实际上最后被抽中的球,那么我们可以说:Lastie 最后被抽中的机会最初是 1/n,而在第 m 次抽签之后,它变成了 1/(n−m),直到达到 1 并保持不变。在最后阶段,Lastie 是否被最后抽中不再是偶然的问题;它是唯一留在罐子里的球。RCT 认为,给定的结果发生是偶然的,当且仅当它是随机序列的一部分。在任何时候,Lastie 被最后抽中的事件都是随机序列的一部分。但是,那么至少有一个时间点,Lastie 被最后抽中的事件是随机序列的一部分,但在那个时间点,它并不是偶然发生的。(当然,也可以认为即使是几乎没有机会的事件也是偶然发生的。但这将再次引发有偏倚序列的问题;由一个双面硬币抛出的一串正面可能是随机的,但实际上并不是。)

6. 拯救论文:概率和随机性的替代概念

在第 4-5 节的讨论中,RCT 处于一个可疑的位置。但可能是因为在第 1-2 节中勾勒出的概率和随机性理论存在一些缺陷,导致了对 RCT 的问题更多。正如前面所提到的,有一些替代的概率和随机性观念具有一定吸引力,也许可以拯救 RCT。它们对于当 RCT 首次引入时提到的仅可能的随机序列的模态问题没有太多可说的。但也许其他的异议可以避免。对于 RCT 的问题基本上是由于产品随机性和过程概率之间的分裂而产生的。弥合这个差距有望有助于 RCT。接下来的两个小节将考虑概率的产品观念和基于过程的随机性观念。

6.1 产品概率

频率理论是一种产品概念的概率。根据冯·米塞斯(1957)的说法,一个结果类型只有在它是一个随机序列中的结果类型,并且该结果类型具有稳定的极限相对频率时,才具有概率。因此,概率不能与随机性分离;实际上,它需要随机性。此外,由于具有极限相对频率为 12 是无限二进制序列的一个度量性属性,所有随机序列都定义了集合。(那些不收敛于极限频率的无限二进制序列是非随机的。)然而,频率主义作为概率理论的问题是众所周知的(Hájek,1997;2009;Jeffrey,1977)-我们已经遇到了其中的一些问题-以接受频率主义来拯救 RCT 并没有吸引到很多人。

但对于休谟式的概率观点(Lewis 1994; Loewer 2004),前景更加有希望,就像附录 A.1、A.3 和 D 中讨论的还原主义观点一样。这些观点是概率观念的一种,因为除非对于可能世界中发生的事件的最佳(最简单、最适合、最具信息量)描述涉及概率函数,否则该世界不会出现概率。两个世界的概率不同,意味着它们在某些事件上也有所不同。因此,概率随附于给定世界中的实际结果,但不一定以直接的方式——为了简单起见,与实际频率值有所偏离可能会产生更好的描述。关于休谟最佳系统解释能否解释我们对概率的所有了解存在着相当大的争议。刘易斯认为概率是他广义休谟世界观的“大坏虫”(尽管他认为附录 A.1 中讨论的 NP 纠正了休谟随附:Lewis 1994),关于 PP 或 BCP 是否可以由休谟解释,存在着相当大的争议,附录 A 中的参考文献可以证明这一点。此外,关于概率分布“适合”一组结果的概念是否有意义也存在问题(Elga 2004)。但假设最佳系统解释可以奏效。

简洁在休谟观点中的作用对于随机性非常重要。如果一个世界包含真正随机的结果序列,那么对于该序列将没有简短的描述。那些不试图描述所有细节,而是涉及概率分布使得该序列在该概率函数下成为典型序列的描述将更少提供信息,但长度更短,仍然适用。因此,似乎如果一个世界包含随机结果序列,最好的理论将是涉及概率的理论,并且作为最好理论的一部分,这些概率将是概率。这使得随附性的正确性从右到左是合理的。如果通过简洁性这条路径是概率能进入最佳系统的唯一方式,那么另一方向也成立。在没有随机序列的情况下是否可能存在概率的世界?对于休谟主义者来说,这里的情况相当模糊。因为最佳系统方法对于概率的特点是通过简洁性避免了纯频率主义的一些问题。特别是,一个不典型的结果序列(短序列或高度偏倚的序列)不一定会强制概率取实际频率的值。假设一个世界包含两个内在重复的硬币,其中一个被抛掷多次,大约一半的时间朝上;另一个被抛掷少次,每次都朝下。第二个硬币的结果序列中头朝上的频率为零。最佳系统解释的一个优点是,我们仍然可以说头朝上的概率是 1/2,因为这个硬币嵌入在一个另一个类似的硬币确实具有适当的结果频率的世界中,而且总体上说,这是一个更简单的理论,即这两个硬币都遵循相同的概率法则,而不是第二个硬币是决定论的绿洲。 但是这个案例对 RCT 提出了一个问题 - 看起来第二次抛硬币不是任何随机结果序列的一部分(因为几次全是正面朝上的抛硬币不是随机的),但它有概率。

我们不应该让最佳系统分析在保护 RCT 方面的部分成功影响我们。休谟对概率的解释与偏见的存在以及非独立的试验序列完全兼容;而 RCT 则不然。刚才提到的问题甚至在最有利于 RCT 的情况下也会出现,即至少存在一个实际无偏公平的硬币序列。这样的问题的存在是可以预测到的。最佳系统解释在试图适应单个案例过程直觉方面偏离了纯频率主义,正如我们在第 1 节中看到的那样,这些直觉是概率的特征。在这个方向上的每一次成功都将使这种广义产品概念的概率更接近一个过程概念,因此将成为 RCT 的反例出现的潜在机会。

6.2 过程随机性:认识论理论

如在第 2 节开头提到的,有时候“随机”一词在过程意义上使用。有一些哲学方法试图认真对待随机性,但并不认为它仅仅等同于“偶然”,从而使 RCT 变得琐碎。最流行的方法是将随机性与不确定性联系起来,并通过直接论证不确定性产生机会和随机性来捍卫 RCT。该方法的前景将在第 7 节讨论。

过程随机性的下一个最常讨论的观点是认识论观点。在这个观点上,随机过程是那些我们事先无法知道结果的过程;也就是说,随机过程是不可预测的(Eagle 2005; Kyburg 1974: ch. 9)。以下是对该观点的一个明确表达:

在最基本的层面上,我们说一个事件是随机的,如果没有办法确定地预测它的发生。同样,随机过程是我们无法预测接下来会发生什么的过程。(Frigg 2004: 430)

为了使这种观点产生正确的结果,如果我们仅仅对其结果进行猜测是不算作“能够预测一个过程”的。因此,预测必须涉及一些合理性的概念;对于代理人来说,做出他们所做的预测是合理的。例如,Eagle(2005: 770)坚持认为,是预测代理人接受的物理理论使得某些后验置信度合理;即使猜测是正确的,仅仅猜测是不合理的。

这个定义与第 2 节中讨论的随机性的定义有很大的重叠。特别是,如果一个过程是可预测的,那么这将为该过程的结果序列提供一个获胜的投注策略,因此不能是一个 KML-随机的结果序列。因此,生成过程的不可预测性是任何具体结果序列的 KML-随机性的必要条件。

但是,不可预测性并不足够,因为我们可能无法知道过程的未来结果的所有真相,而这些真相可能排除了一个 KML 随机序列。从我们对混沌动力学的讨论可以看出这一点。假设一个系统在一段相对较短的时间后,对我们来说无法区分的状态可能会相距任意远,那么我们可以说该系统对初始条件表现出明显的依赖性。(另一种定义是,如果知识遵循误差边界原则,那么一个系统对初始条件表现出明显的依赖性,如果我们所知道的情况下,它对初始条件敏感依赖。)即使敏感依赖于初始条件不存在,初始条件的明显依赖性仍然可能存在。因为可能存在一个大小为 v 的值,使得在将状态集合划分为小于 v 的测度的区域时,从划分的单元格中开始的任意两个点演化到彼此接近的未来状态,只要 v 相对于我们的区分能力来说足够小。一个明显但不敏感依赖于初始条件的系统对我们来说是不可预测的,但是存在一个算法,可以根据一些有限的初始条件生成系统的未来演化,而且完全准确。(关键在于有限的初始条件必须包含比我们所知道的更精确的数据来描述系统。)这个序列如果足够长,它就不是 KML 随机的,但是它是不可预测的。[24]

由于不可预测生成的序列与 KML 随机序列之间存在相当大的重叠(Frigg 2004: 431),后者可以扮演的许多角色也将由前者扮演。Eagle(2005)进一步认为,不可预测生成的序列更适合随机性的理论角色,并基于此声称随机性就是不可预测性。这个论点的一个好处是,作为一个过程概念,它直接与机会过程相连接。因此,我们可以直接评估将机会和随机性联系起来的原始论点 CT,形式如下:

(CTU)一个过程是有机会的,当且仅当它不是理性可预测的。

当我们只关注独立同分布试验时,CTU 的从左到右的方向看起来相对安全。但是当试验不是独立的,就像第 4.4 节中的例子一样,即使知道系统的过去状态能够使人更好地预测未来的结果,未来的结果仍然可能是偶然发生的。CTU 的从右到左的方向更加困难。因为如果一个序列的 KML 随机性意味着它的不可预测生成,那么每一个涉及 KML 随机性而没有机会的 RCT 的反例也将涉及没有机会的不可预测性,并构成 CTU 的反例。在这种随机性的概念中,对 RCT 的辩护者找不到任何援助。

7. 概率、随机性和确定性

最后一次希望证明偶然结果是随机的论点来自于这两个概念与不确定性的联系。考虑以下论证:

P1: 结果发生的概率性当且仅当它是由一个不确定性过程产生的。

P2: 一系列可能的结果是随机的当且仅当一个重复的不确定性过程可以产生所有的结果。

RCT: 因此,如果存在一个可能的随机结果序列,由相同的过程产生,而该结果是其中的一个成员,则结果发生是由于概率。

这个论证是有效的。如果前提是真实的,我们就有了一个直接证明概率的论证。我们对第 4-5 节中提出的异议没有直接回应,但是不知何故,如果这个论证成功,那些异议肯定是错的。这些前提在一开始就有一些合理性(尽管 P2 是可疑的:一个适当的不确定性过程肯定可以产生任何可能的结果序列,包括许多非随机序列?我们在 7.2 节中进一步讨论这个问题)。不确定性是概率的必要和充分条件的论点长期以来一直是一个受欢迎的主张。而且随机性和不确定性似乎也有着密切的联系。但是要对它们进行评估,我们需要比我们对确定性更精确。

Earman-Montague 决定论: 一个科学理论是确定性的,当且仅当该理论的模型中的任意两个状态序列在某个时间点共享某个状态时,在每个时间点都共享每个状态。一个理论是不确定性的,当且仅当它不是确定性的;换句话说,如果两个系统在某个时间点可以处于相同的状态并演化为不同的状态。一个系统是(不)确定性的,当且仅当完全且正确地描述它的理论(它是该理论的一个模型)是(不)确定性的。(Earman 1986; Montague 1974)

所述的决定论是一个随附论题:正如 Schaffer(2007: 115)所说,“一个世界 w 是确定性的,当且仅当:对于 w 中的所有时间 t,w 的总发生历史随附于 w 在 t 时的发生状态以及 w 的规律。”

考虑到这一点,我们现在评估这个论证的前提。对于两个前提的两个方向都存在重大的疑问。总之,不确定性对于 RCT 的辩护者来说并没有提供太多的安慰。

7.1 概率和确定性

几乎可以说是哲学正统的一部分,非平凡的客观概率需要不确定性。这个观点很少被辩护;即使那些费心明确陈述这个观点的人(Lewis, 1980: 120),也没有进一步努力去证明它,可能是因为它似乎是显而易见的。毕竟,在确定性下,一个了解过去和法则的人将能够确定地知道每一个未来的结果。因此,在确定性下,我们使用概率必须纯粹是主观的,是我们对过去或法则的(也许是不可避免的)无知的副作用。如果这个正统是正确的,至少 P1 的从左到右的方向将是正确的。

然而,最近有很多哲学家的工作都在捍卫概率和决定论是一致的这一论点。上面提到的许多主题都出现在他们的论证中。洛厄尔(2001)利用最佳系统分析概率来论证,在像我们这样的世界(具有熵增过程和表面上公平的抛硬币等)中,最佳描述涉及一些概率成分,值得称为概率。克拉克(1987)利用我们如何使用相空间测度 μ 来控制我们对伯努利和混合系统在经典统计力学中行为的期望,并论证(实际上)这是一种客观的概率函数,尽管底层物理是确定性的。还有其他一些关于确定性概率的提议(Eagle 2011; Glynn, 2010; Hoefer, 2007; Ismael, 2009; Sober, 2010)。一般的技术是论证在完全确定性的理论中,可以有概率分布来扮演概率的角色。这些哲学家中的许多人对概率的还原主义持有同情态度,这使得概率和决定论是兼容的。一个世界的整个历史随附于其任何时刻,正如决定论所述,这似乎对于该整个历史的最佳描述是否涉及概率没有任何影响(这与 Schaffer 2007: 115 的“无连接”论证有关)。然而,如果存在确定性概率,P1 就是错误的。

关于概率的反约简主义者通常认为这些论点不太有说服力(波普尔 1992 年;布莱克 1998 年;维纳和贝尔纳普 2006 年)。特别是,将 BCP(和 RP)与确定性概率相调和在很多方面都很困难。这将要求存在一个在 t 之前与我们在发生事实上相符但之后发生分歧的物理可能世界(共享相同的法则);但如果确定性是真实的,这样的分歧是不可能的。如果那个世界在任何时间与我们相符,那么它在所有时间都与我们相符。因此,似乎“只有一个不相容的函数才能适应 RP”(沙弗 2007 年:130)。无论如何,关于确定性“概率”以及关于概率的约简主义的争论仍在进行中(请参阅附录 A 中的进一步讨论);P1 的从左到右方向的状态至多是不确定的。

对于从右到左的方向则不能这样说。§ 5.3 中的讨论表明,存在没有概率的不确定性理论,其中不确定性是通过存在替代未来可能性来保证的,但这些可能性集体上不允许或需要对它们进行概率分布。没有概率的不确定性情况的另一个有争议的类别来自于那些拒绝关于概率的普遍主义的人:即“概率真理适用于任何命题”(刘易斯,1980 年:91)。如果普遍主义是错误的,可能存在不确定性情况,其中替代结果是概率不适用的结果。冯·米塞斯拒绝了普遍主义,因为他认为概率只适用于“群体现象”;例如,在一个只发生一次的不确定性世界中,概率论不适用。霍弗(2007 年)也持有类似的观点,他拒绝了那些没有足够稳定结果模式的过程的概率。

7.2 随机性和确定性

如果能够证明,根据确定性的上述定义,我们可以得出以下结论:(i) 在不确定性下只能发生随机序列,(ii) 随机序列只能在不确定性下发生,那么我们可以为 P2 提供一个论证。然而,这个论断的两个部分都存在问题。

定理 8(Humphreys 1978)。存在一个在 Montague 意义上是确定性的理论,其模型是一个按照 von Mises/Church 的意义产生随机序列的系统。

这个定理的证明依赖于一个事实,即一个理论可以在非平凡的意义上是确定性的,而不一定是可计算的。存在一个算术可定义的函数来控制系统随时间的演化(在 Humphrey 的构造中,系统的瞬时状态是时间的算术可定义函数,这确保了在某个时间一致的两个模型将在所有时间上一致,从而保证了确定性)。但是这个函数并不是有效可计算的,因此没有算法能够产生这个系统经历的状态序列。这种不可计算函数的物理意义不明确(尽管参见 Pour-El 和 Richards 1983),但是具有这样的运动方程的确定性物理学的可能性足以削弱随机性和不确定性之间的密切联系。这表明了上述的(ii)论断是错误的。

此外,由于我们已经在(§ 4.1)中看到,一个具有概率和不确定性的过程有可能产生一个非随机的结果序列,而这样的序列将不是随机的,因此我们也有了对主张(i)的反例。如果我们对不确定性下可能发生的事情做出更强有力的主张,就可以挽救主张(i)。在某种意义上,虽然一个公平的硬币有可能无限次地正面朝上,但实际上不会这样。也就是说,虚拟条件句“如果我抛掷硬币无限次,它不会全部朝上”显然是真实的。对于这个虚拟条件句是否真实存在一些争议;刘易斯(1979a)和威廉姆斯(2008)认为是真实的,而霍桑(2005)认为不是。但如果是真实的,那么就有可能通过辩护一个修改过的虚拟条件句版本来捍卫 P2:

P2': 一个可能的结果序列是随机的,当且仅当,如果一个不确定性过程被无限重复,它不会产生那个结果序列。

但这是非常有争议的;而且对于主张(ii)的问题仍然存在。

如果我们要接受这个论点,那么我们必须将 P2 视为关于随机性的独立真理。关于将 P2 视为分析性的随机性分析已经提出:如果前面的观察是正确的,那么这对它们是不利的。Hellman(1978 年:83)认为随机性“大致上可以与‘不确定性’互换”,而 Ekeland(1988 年:49)说“随机性的主要特征是与初始条件的某种程度的独立性……更好的是,如果在相同的初始条件下进行两次相同的实验,可能会得到两个不同的结果”。

然而,有人认为将随机性视为不确定性的这种观点使得难以理解随机性在科学中的许多用途(Eagle 2005 年:§3.2)。这种观点认为,随机抽样、混沌动力学中的随机结果以及种群遗传学中的随机交配等实际上并不是随机的,尽管它们看起来很有可能是随机的。显然,并不需要基本的不确定性来进行随机化试验,我们对这些试验结果的信心并不依赖于我们对试验设计涉及放射性衰变或其他基本不确定性过程的信心。实际上,如果 Bohmian 或 Everettian 是正确的(这是一个开放的认识可能性),并且量子力学是确定性的,那么这种观点认为,实际上没有任何东西是随机的,甚至连最直观令人信服的情况也是如此。这种观点将科学家归因于对他们对“随机”一词的许多用法的一种错误理论,但迄今为止,用来定罪科学家犯有这种普遍错误的哲学证据并不令人信服。

随机性是不确定性的原因之一,这个论点之所以仍然具有吸引力,可能是因为直到最近,哲学家和其他人往往混淆了不可预测性和不确定性。拉普拉斯最初对决定论的理解是一个认识论的理解:

“一个能够理解自然界所有受到影响的力量以及构成它的各种事物的相对位置的智能——一个足够广阔的智能,能够对这些数据进行分析——它将能够用同一个公式来描述宇宙中最大物体的运动和最轻的原子的运动;对于它来说,没有什么是不确定的,未来和过去对它来说都是现在。”(拉普拉斯,1826 年:第 4 页)

尽管蒙塔古-厄曼的定义给出了一个非认识论的确定性描述,但这种解释仍然与我们产生共鸣。由于随机序列几乎总是不可预测的,所以我们很容易将它们视为不确定的。但是一旦我们清楚了可预测性和确定性之间的区别,我们就能够避免这种混淆(Bishop,2003 年;Schurz,1995 年;Werndl,2009 年)。

8. 结论

从我们所见,普通的论点是无法维持的。如果一个过程的概率和其产物的随机性能够相互结合,那将会非常好——概率的认识论将会在随机的输出中得到很大的帮助,我们可以对重复的概率过程的预期结果有一个严格的限制,更不用说这个论点对随机抽样或概率解释可能产生的进一步有趣的后果了,这些在引言中提到过。但是在第 4-5 节中对这个论点的反例表明,即使是在其最合理的形式下,它也是错误的。通过诉诸于非标准的概率或随机性解释来挽救这个论点的各种尝试都未能给我们提供一个有趣或与我们所希望的问题相关的论点版本。最后一次试图直接从概率、随机性和决定论之间的联系来证明这个论点的尝试也失败了,尽管它确实为这三个概念提供了一些启示。因此,最安全的结论是,概率和随机性虽然在许多情况下有重叠,但它们是不同的概念。

这并不意味着 KML-随机性和物理概率之间没有联系。观察到一系列随机结果是对研究结果序列的物理基础的一种可废除的动机,并且至少提供了一个初步的理由认为一个过程是具有概率性的(尽管请回顾第 4.5 节)。此外,如果我们知道一个过程是具有概率性的,我们应该期望(最终,以高概率和逐渐增加的概率)得到一系列随机结果。相反,一个看起来可预测、可压缩和受规则支配的结果序列将成为任何仅由偶然性产生的假设的强有力的反证据。Hellman 得出结论

那么,数学和物理随机性之间的联系是认识论的,仅仅如此。对于数学上非随机序列的观察可以用来决定是否需要进一步解释尚未发现的因果因素。但是,无论是什么意义上的数学随机性都不能作为“终极物理随机性”的解释。 (Hellman,1978:86)

将“数学随机性”理解为产品随机性,“物理随机性”理解为过程随机性(偶然性),这个结论似乎是不可避免的。

与频率和机会之间的关系相似且不足为奇。相对频率是良好但不是绝对可靠的机会指标,而且在 0 和 1 之间存在严格的结果频率是表明机会过程参与产生这些结果的证据。但是,频率主义作为对机会的还原解释是不可信的。认为只有在存在随机结果序列的情况下才存在机会也是不可信的。机会和随机性之间的证据和认识论联系远远不及我们最初提出的常见论题所提出的概念联系。

Bibliography

  • Agafonov, V. N., 1968, ‘Normal sequences and finite automata’, Soviet Mathematics Doklady, 9: 324–25.

  • Albert, David Z., 1992, Quantum Mechanics and Experience, Cambridge, MA: Harvard University Press.

  • –––, 2000, Time and Chance, Cambridge, MA: Harvard University Press.

  • Arntzenius, Frank and Ned Hall, 2003, ‘On What We Know About Chance’, British Journal for the Philosophy of Science, 54: 171–9.

  • Bar-Hillel, Maya and Willem A. Wagenaar, 1991, ‘The Perception of Randomness’, Advances in Applied Mathematics, 12: 428–54.

  • Barrett, Jeffrey A., 1999, The Quantum Mechanics of Minds and Worlds, Oxford: Oxford University Press.

  • Beall, JC and Greg Restall, 2006, Logical Pluralism, Oxford: Oxford University Press.

  • Bell, John S., 1964, ‘On the Einstein-Podolsky-Rosen paradox’, Physics, 1: 195–200.

  • Berkovitz, Joseph, Roman Frigg, and Fred Kronz, 2006, ‘The Ergodic Hierarchy, Randomness and Chaos’, Studies in History and Philosophy of Modern Physics 37: 661–91.

  • Bigelow, John, John Collins and Robert Pargetter, 1993, ‘The Big Bad Bug: What are the Humean’s Chances?’, British Journal for the Philosophy of Science, 44: 443–62.

  • Bishop, Robert C., 2003, ‘On Separating Predictability and Determinism’, Erkenntnis, 58: 169–88.

  • Black, Robert, 1998, ‘Chance, Credence, and the Principal Principle’, British Journal for the Philosophy of Science, 49(3): 371–85.

  • Boolos, George S., John P. Burgess, and Richard C. Jeffrey, 2003, Computability and Logic, Cambridge: Cambridge University Press, 4th edition.

  • Borel, Émile, 1909, ‘Les Probabilités Dénombrables et Leurs Applications Arithmétiques’, Rendiconti del Circolo Matematico di Palermo, 27: 247–71.

  • Butler, Joseph, 1736, The Analogy of Religion, Natural and Revealed, to the Constitution and Course of Nature, London: Knapton.

  • Callender, Craig, 2009, ‘Thermodynamic Asymmetry in Time’, in The Stanford Encyclopedia of Philosophy (Spring 2009 edition), Edward N. Zalta (ed.), URL =<Thermodynamic Asymmetry in Time (Stanford Encyclopedia of Philosophy/Spring 2009 Edition)>.

  • Carnap, Rudolf, 1945, ‘The Two Concepts of Probability’, Philosophy and Phenomenological Research, 5: 513–32.

  • Chaitin, Gregory, 1966, ‘On the Length of Programs for Computing Finite Binary Sequences’, Journal of the Association for Computing Machinery, 13: 547–69.

  • –––, 1975, ‘Randomness and Mathematical Proof’, Scientific American, 232: 47–52.

  • –––, 1987, ‘Incompleteness Theorems for Random Reals’, Advances in Applied Mathematics, 8: 119–46.

  • Champernowne, D. G., 1933, ‘The Construction of Decimals Normal in the Scale of Ten’, Journal of the London Mathematical Society, 8: 254–60.

  • Church, Alonzo, 1940, ‘On the Concept of a Random Sequence’, Bulletin of the American Mathematical Society, 46: 130–135.

  • Clark, Peter, 1987, ‘Determinism and Probability in Physics’, Proceedings of the Aristotelian Society, Supplementary Volume, 61: 185–210.

  • Dasgupta, Abhijit, 2011, ‘Mathematical Foundations of Randomness’, in Prasanta Bandyopadhyay and Malcolm Forster (eds.), Philosophy of Statistics (Handbook of the Philosophy of Science: Volume 7), Amsterdam: Elsevier, pp. 641–710.

  • Davies, Martin and Lloyd Humberstone, 1980, ‘Two Notions of Necessity’, Philosophical Studies, 38: 1–30.

  • de Finetti, Bruno, 1964, ‘Foresight: Its Logical Laws, Its Subjective Sources’, In Studies in Subjective Probability, Henry E. Kyburg, Jr. and Howard E. Smokler (eds.), New York: Wiley, pp. 93–158.

  • Delahaye, Jean-Paul, 1993, ‘Randomness, Unpredictability and Absence of Order’, In Philosophy of Probability, Jacques-Paul Dubucs (ed.), Dordrecht: Kluwer, pp. 145–67.

  • Doob, J. L., 1936, ‘Note on Probability’, Annals of Mathematics, 37: 363–7.

  • Downey, Rod and E. Griffiths, 2004, ‘Schnorr randomness’, Journal of Symbolic Logic, 69: 533–54.

  • Downey, Rod and Denis R. Hirschfeldt, 2010, Algorithmic Randomness and Complexity, Berlin: Springer.

  • –––, –––, André Nies and Sebastiaan A. Terwijn, 2006, ‘Calibrating Randomness’, Bulletin of Symbolic Logic, 12: 411–91.

  • Eagle, Antony, 2004, ‘Twenty-One Arguments Against Propensity Analyses of Probability’, Erkenntnis, 60: 371–416.

  • –––, 2005, ‘Randomness is Unpredictability’, British Journal for the Philosophy of Science, 56: 749–90.

  • –––, 2011, ‘Deterministic Chance’, Noûs, 45: 269–99.

  • –––, 2016, ‘Probability and Randomness’, In The Oxford Handbook of Probability and Philosophy, Alan Hájek and Christopher Hitchcock (eds.), Oxford: Oxford University Press, pp. 440–59.

  • Earman, John, 1986, A Primer on Determinism, Dordrecht: D. Reidel.

  • Eells, Ellery, 1983, ‘Objective Probability Theory Theory’, Synthese, 57: 387–442.

  • Ekeland, Ivar, 1988, Mathematics and the Unexpected, Chicago: University of Chicago Press.

  • Elga, Adam, 2004, ‘Infinitesimal Chances and the Laws of Nature’, Australasian Journal of Philosophy, 82: 67–76.

  • Feller, William, 1945, ‘The Fundamental Limit Theorems in Probability’, Bulletin of the American Mathematical Society, 51: 800–32.

  • –––, 1950, An Introduction to Probability Theory and Its Applications. New York: Wiley.

  • Frigg, Roman, 2004, ‘In What Sense is the Kolmogorov-Sinai Entropy a Measure for Chaotic Behaviour?—Bridging the Gap Between Dynamical Systems Theory and Communication Theory’, British Journal for the Philosophy of Science, 55: 411–34.

  • Futuyma, Douglas J., 2005, Evolution. Cumberland, MA: Sinauer.

  • Gaifman, Haim, 1988, ‘A Theory of Higher Order Probabilities’, in Causation, Chance and Credence, volume 1, Brian Skyrms and William Harper (eds.), Dordrecht: Kluwer, pp. 191–219.

  • –––, and Marc Snir, 1982, ‘Probabilities Over Rich Languages, Testing and Randomness’, Journal of Symbolic Logic, 47: 495–548.

  • Gates, P. and H. Tong, 1976, ‘On Markov Chain Modeling to Some Weather Data’, Journal of Applied Meteorology, 15: 1145–51.

  • Giere, Ronald N., 1973, ‘Objective Single-Case Probabilities and the Foundations of Statistics’, 4, Amsterdam: North-Holland, 467–83.

  • Gillies, Donald, 2000, ‘Varieties of Propensity’, British Journal for the Philosophy of Science, 51: 807–35.

  • Gilovich, Thomas, Robert Vallone, and Amos Tversky, 1985, ‘The Hot Hand in Basketball: On the misperception of random sequences’, Cognitive Psychology, 17: 295–314.

  • Glynn, Luke, 2010, ‘Deterministic Chance’, British Journal for the Philosophy of Science, 61: 51–80.

  • Gowers, Timothy, (ed.), 2008, The Princeton Companion to Mathematics, Princeton: Princeton University Press.

  • Hacking, Ian, 1965, The Logic of Statistical Inference, Cambridge: Cambridge University Press.

  • Hahn, Ulrike and Paul A Warren, 2009, ‘Perceptions of Randomness: Why Three Heads Are Better Than Four’, Psychological Review, 116: 454–61.

  • Hájek, Alan, 1997, ‘“Mises Redux”-Redux: Fifteen Arguments Against Finite Frequentism’, Erkenntnis, 45: 209–227.

  • –––, 2007, ‘The Reference Class Problem is Your Problem Too’, Synthese, 156: 563–85.

  • –––, 2009, ‘Fifteen Arguments Against Hypothetical Frequentism’, Erkenntnis, 70: 211–235.

  • –––, 2012, ‘Interpretations of Probability’, in The Stanford Encyclopedia of Philosophy (Winter 2012 edition), Edward N. Zalta (ed.), URL =<Interpretations of Probability (Stanford Encyclopedia of Philosophy/Winter 2012 Edition)>.

  • Hall, Ned, 1994, ‘Correcting the Guide to Objective Chance’, Mind, 103: 505–17.

  • –––, 2004, ‘Two Mistakes About Credence and Chance’, in Lewisian Themes, Frank Jackson and Graham Priest (eds.), Oxford: Oxford University Press, pp. 94–112.

  • Hawthorne, John, 2005, ‘Chance and Counterfactuals’, Philosophy and Phenomenological Research, 70: 396–405.

  • ––– and Maria Lasonen-Aarnio, 2009, ‘Knowledge and Objective Chance’, in Williamson on Knowledge, Patrick Greenough and Duncan Pritchard (eds.), Oxford: Oxford University Press, pp. 92–108.

  • Hellman, Geoffrey, 1978, ‘Randomness and Reality’, in PSA 1978, volume 2, Peter D. Asquith and Ian Hacking (eds.), Chicago: University of Chicago Press, pp. 79–97.

  • Hoefer, Carl, 2007, ‘The Third Way on Objective Probability: A Sceptic’s Guide to Objective Chance’, Mind, 116: 549–96.

  • –––, 2010, ‘Causal Determinism’, The Stanford Encyclopedia of Philosophy (Spring 2010 Edition), Edward N. Zalta (ed.), URL =<Causal Determinism (Stanford Encyclopedia of Philosophy/Spring 2010 Edition)>.

  • Howson, Colin and Peter Urbach, 1993, Scientific Reasoning: the Bayesian Approach, Chicago: Open Court, 2nd edition.

  • Humphreys, Paul W., 1978, ‘Is “Physical Randomness” Just Indeterminism in Disguise?’, in PSA 1978, volume 2, Peter D. Asquith and Ian Hacking (eds.), Chicago: University of Chicago Press, pp. 98–113.

  • –––, 1985, ‘Why Propensities Cannot be Probabilities’, Philosophical Review, 94: 557–70.

  • Ismael, Jenann, 1996, ‘What Chances Could Not Be’, British Journal for the Philosophy of Science, 47: 79–91.

  • –––, 2008, ‘Raid! Dissolving the Big, Bad Bug’, Noûs, 42: 292–307.

  • –––, 2009, ‘Probability in Deterministic Physics’, Journal of Philosophy, 106: 89–109.

  • Jeffrey, Richard C., 1977, ‘Mises Redux’, in Basic Problems in Methodology and Linguistics, Robert E. Butts and Jaakko Hintikka (eds.), Dordrecht: D. Reidel, pp. 213–222.

  • Joyce, James M., 1998, ‘A Nonpragmatic Vindication of Probabilism’, Philosophy of Science, 65: 575–603.

  • –––, 2007, ‘Epistemic Deference: The Case of Chance’, Proceedings of the Aristotelian Society, 107: 187–206.

  • Kahneman, Daniel and Amos Tversky, 1972, ‘Subjective Probability: A judgment of representativeness’, Cognitive Psychology, 3: 430–54.

  • Kautz, Steven M., 1991, Degrees of random sets, Ph.D. thesis, Cornell University, [Available online].

  • Kolmogorov, A. N., 1929, Über das Gesetz des iterierten Logarithmus’, Math. Ann., 101: 126–35.

  • –––, 1933, Grundbegriffe der Wahrscheinlichkeitrechnung, Ergebnisse Der Mathematik; translated as Foundations of Probability, Chelsea Publishing Company, 1950.

  • –––, 1963, ‘On Tables of Random Numbers’, Sankhya, 25: 369–376.

  • –––, 1965, ‘Three Approaches to the Definition of the Concept “Quantity of Information”’. Problemy Peredachi Informatsii, 1: 3–11.

  • –––, and V. A. Uspensky, 1988, ‘Algorithms and Randomness’. SIAM Theory of Probability and Applications, 32: 389–412.

  • Kratzer, Angelika, 1977, ‘What ‘must’ and ‘can’ Must and Can Mean’. Linguistics and Philosophy, 1: 337–55.

  • Kyburg, Jr., Henry E., 1974, The Logical Foundations of Statistical Inference, Dordrecht: D. Reidel.

  • –––, 1978, ‘Subjective probability: Criticisms, reflections, and problems’, Journal of Philosophical Logic, 7: 157–80.

  • Laplace, Pierre-Simon, 1826, Philosophical Essay on Probabilities, New York: Dover, 1951

  • Levi, Isaac, 1980, The Enterprise of Knowledge, Cambridge, MA: MIT Press.

  • Levin, L. A. and A. K. Zvonkin, 1970, ‘The Complexity of Finite Objects and the Basing of the Concepts of Information and Randomness on the Theory of Algorithms’, Uspekhi Matematicheskikh Nauk, 25 (6 (156)): 85–127.

  • Lewis, David, 1973, Counterfactuals, Oxford: Blackwell’s.

  • –––, 1979a, ‘Counterfactual Dependence and Time’s Arrow’, in his Philosophical Papers, volume 2, Oxford: Oxford University Press, 1986, pp. 32–66.

  • –––, 1979b, ‘Scorekeeping in a Language Game’, Journal of Philosophical Logic, 8: 339–59.

  • –––, 1980, ‘A Subjectivist’s Guide to Objective Chance’, in his Philosophical Papers, volume 2, Oxford: Oxford University Press, 1986, pp. 83–132.

  • –––, 1994, ‘Humean Supervenience Debugged’, Mind, 103: 473–90.

  • Li, Ming and Paul M. B. Vitányi, 2008, An Introduction to Kolmogorov Complexity and Its Applications, Berlin and New York: Springer Verlag, 3rd edition.

  • Loewer, Barry, 2001, ‘Determinism and Chance’, Studies in History and Philosophy of Modern Physics, 32: 609–20.

  • –––, 2004, ‘David Lewis’ Humean Theory of Objective Chance’, Philosophy of Science, 71: 1115–25.

  • –––, 2007, ‘Counterfactuals and the Second Law’, in Causation, Physics, and the Constitution of Reality: Russell’s Republic Revisited, Huw Price and Richard Corry (eds.), Oxford: Oxford University Press, pp. 293–326.

  • Luzzatto, Stefano, Ian Melbourne, and Frederic Paccaut, 2005, ‘The Lorenz Attractor is Mixing’, Communications in Mathematical Physics, 260: 393–401, [Preprint available online].

  • Martin-Löf, Per, 1966, ‘The Definition of a Random Sequence’, Information and Control, 9: 602–619.

  • –––, 1969a, ‘Algorithms and Randomness’, Review of the International Statistical Institute, 37: 265–72.

  • –––, 1969b, ‘The Literature on von Mises’ Kollektivs Revisited’, Theoria, 35: 12–37.

  • Mather, J. and R. McGehee, 1975, ‘Solutions of the collinear four-body problem which become unbounded in finite time’, in Dynamical Systems, Theory and Applications, (Series: Lecture Notes in Physics, Volume 38), J. Moser (ed.), Berlin: Springer Verlag, pp. 573–97.

  • Matsumoto, Makoto and Takuji Nishimura, 1998, ‘Mersenne twister: a 623-dimensionally equidistributed uniform pseudo-random number generator’, ACM Transactions on Modeling and Computer Simulation, 8(1): 3–30.

  • Mellor, D. H., 2000, ‘Possibility, Chance and Necessity’, Australasian Journal of Philosophy, 78: 16–27.

  • Milne, P., 1985, ‘Can there be a Realist Single Case Interpretation of Probability?’ Erkenntnis, 25: 129–32.

  • Montague, Richard, 1974, ‘Deterministic Theories’, in Formal Philosophy, Richmond H. Thomason (ed.), New Haven: Yale University Press.

  • Nies, André, 2009, Computability and Randomness, Oxford: Oxford University Press.

  • Norton, John D., 2003, ‘Causation as Folk Science’, Philosophers’ Imprint, 3(4), URL = [Available online].

  • –––, 2008, ‘The Dome: An Unexpectedly Simple Failure of Determinism’, Philosophy of Science, 75: 786–98.

  • Pathak, Noopur, 2009, ‘A computational aspect of the Lebesgue differentiation theorem’, Journal of Logic and Analysis, 1 (9): 1–15 [Available online].

  • Popper, Karl, 1959, ‘A Propensity Interpretation of Probability’, British Journal for the Philosophy of Science, 10: 25–42.

  • –––, 1992, Quantum Theory and the Schism in Physics, New York: Routledge.

  • Porter, Christopher P., 2016, ‘On Analogues of the Church-Turing Thesis in Algorithmic Randomness’, The Review of Symbolic Logic, 9 (3): 456–79.

  • Pour-El, B. M. and I. Richards, 1983, ‘Non-computability in Analysis and Physics’, Advances in Mathematics, 48: 44–74.

  • RAND Corporation, 1955, A Million Random Digits with 100,000 Normal Deviates, New York: Free Press.

  • Reichenbach, Hans, 1949, The Theory of Probability, Berkeley: University of California Press.

  • Saari, Donald G. and Zhihong (Jeff) Xia, 1995, ‘Off to Infinity in Finite Time’, Notices of the American Mathematical Society, 42: 538–46.

  • Salmon, Wesley C., 1977, ‘Objectively Homogeneous Reference Classes’, Synthese, 36: 399–414.

  • Schaffer, Jonathan, 2003, ‘Principled Chances’, British Journal for the Philosophy of Science, 54: 27–41.

  • –––, 2007, ‘Deterministic Chance?’ British Journal for the Philosophy of Science, 58: 113–40.

  • Schnorr, C. P., 1971, ‘A unified approach to the definition of random sequences’, Theory of Computing Systems, 5: 246–58.

  • –––, 1977, ‘A survey of the theory of random sequences’, in R. E. Butts and J. Hintikka (eds.), Basic Problems in Methodology and Linguistics, Dordrecht: D. Reidel, pp. 193–210.

  • Schurz, Gerhard, 1995, ‘Kinds of Unpredictability in Deterministic Systems’, in Law and Prediction in the Light of Chaos Research, P. Weingartner and G. Schurz (eds.), Berlin: Springer, pp. 123–41.

  • Schwarz, Wolfgang, 2016, ‘Best System Approaches to Chance’, In The Oxford Handbook of Probability and Philosophy, Alan Hájek and Christopher Hitchcock (eds.), Oxford: Oxford University Press, pp. 423–39.

  • Shimony, Abner, 2009, ‘Bells’ Theorem’, in The Stanford Encyclopedia of Philosophy (Summer 2009 edition), Edward N. Zalta (ed.), URL =<Bell's Theorem (Stanford Encyclopedia of Philosophy/Summer 2009 Edition)>

  • Sinai, Yakov G., 1992, Probability Theory, Berlin and Heidelberg: Springer-Verlag. Translated by D. Haughton.

  • Sklar, Lawrence, 1993, Physics and Chance, Cambridge: Cambridge University Press.

  • Skyrms, Brian, 1980, Causal Necessity, New Haven: Yale University Press.

  • Smith, Peter, 1998, Explaining Chaos. Cambridge: Cambridge University Press.

  • Sober, Elliott, 2010, ‘Evolutionary Theory and the Reality of Macro Probabilities’. in Probability in Science, Ellery Eells and James H. Fetzer (eds.), Dordrecht: Springer, 133–61, [Preprint available online]

  • Stalnaker, Robert, 1978, ‘Assertion’. in P. Cole (ed), Syntax and Semantics 9, New York: New York Academic Press, 315–32.

  • Strevens, Michael, 1999, ‘Objective Probability as a Guide to the World’, Philosophical Studies, 95: 243–75.

  • Suppes, Patrick, 1984, Probabilistic Metaphysics, Oxford: Blackwell.

  • Talbott, William, 2008, ‘Bayesian Epistemology’, in The Stanford Encyclopedia of Philosophy (Fall 2008 edition), Edward N. Zalta (ed.), URL =<Bayesian Epistemology (Stanford Encyclopedia of Philosophy/Fall 2008 Edition)>.

  • Thau, Michael, 1994, ‘Undermining and Admissibility’, Mind, 103: 491–503.

  • van Lambalgen, Michiel, 1987a, Random Sequences, Ph.D. thesis, University of Amsterdam, [Available online].

  • –––, 1987b, ‘Von Mises’ Definition of Random Sequences Revisited’, Journal of Symbolic Logic, 52: 725–55.

  • –––, 1995, ‘Randomness and Infinity’, Tech. Rep. ML-1995-01, ILLC, University of Amsterdam, URL = [Available online (in compressed Postscript)].

  • Venn, John, 1876, The Logic of Chance, London: Macmillan and Co., 2nd edition.

  • Ville, J., 1939, Étude Critique de la Notion Collectif, Paris: Gauthier-Villars.

  • von Mises, Richard, 1941, ‘On the Foundations of Probability and Statistics’, Annals of Mathematical Statistics, 12: 191–205.

  • ––– 1957, Probability, Statistics and Truth. New York: Dover.

  • Wald, Abraham, 1938, ‘Der Widerspruchsfreiheit des Kollektivbegriffes’, Actualités Scientifique et Industrielles, 735: 79–99.

  • Wallace, David, 2007, ‘Quantum Probability from Subjective Likelihood: Improving on Deutsch’s Proof of the Probability Rule’. Studies in History and Philosophy of Modern Physics, 38: 311–32.

  • Wang, Yongge, 1996, Randomness and Complexity, Ph.D. Thesis, University of Heidelberg, Available online].

  • Weatherson, Brian, 2010 ‘David Lewis’, The Stanford Encyclopedia of Philosophy (Summer 2010 Edition), Edward N. Zalta (ed.), URL =<David Lewis (Stanford Encyclopedia of Philosophy/Summer 2010 Edition)>.

  • Weiner, Matthew and Nuel Belnap, 2006, ‘How Causal Probabilities Might Fit Into Our Objectively Indeterministic World’, Synthese 149(1): 1–36.

  • Werndl, Charlotte, 2009, ‘What Are the New Implications of Chaos for Unpredictability?’ British Journal for the Philosophy of Science, 60: 195–220.

  • Williams, J. R. G., 2008, ‘Chances, Counterfactuals, and Similarity’, Philosophy and Phenomenological Research, 77: 385–420.

  • Williamson, Timothy (2006), ‘Indicative Versus Subjunctive Conditionals, Congruential Versus Non-Hyperintensional Contexts’, Philosophical Issues, 16: 310–33.

  • –––, 2007, ‘How Probable is an Infinite Sequence of Heads?’ Analysis, 67: 173–80.

Academic Tools

Other Internet Resources

Bell’s Theorem | chaos | computability and complexity | determinism: causal | epistemology: Bayesian | Lewis, David | probability, interpretations of | statistical physics: philosophy of statistical mechanics | time: thermodynamic asymmetry in

Acknowledgments

Thanks to audiences at the Sigma Group at the LSE, Leeds HPS, and the first year seminar in Oxford, for comments on presentations of parts of this material, and to Alan Hájek, Chris Porter, and Fred Kroon for extensive and very helpful comments on a draft entry. (In particular, the argument of supplement A.2, note 4 is due to Hájek.) In revising the entry, I’ve been grateful to Chris Porter for further helpful comments and pointers to some of the recent literature. The ‘pluralist’ approach mentioned in supplement B.1.2 is due to him, as in the broad outlines of the argument of B.1.3.

Copyright © 2018 by Antony Eagle <antony.eagle@adelaide.edu.au>

最后更新于

Logo

道长哲学研讨会 2024