遍历层次 ergodic hierarchy (Roman Frigg, Joseph Berkovitz, and Fred Kronz)

首次发表于 2011 年 4 月 13 日星期三；实质性修订于 2020 年 7 月 16 日星期四

遍历层次（EH）是遍历理论的核心部分。它是动力系统可能具有的一系列性质。其五个层次分别是遍历性、弱混合性、强混合性、科尔莫哥洛夫和伯努利。尽管 EH 是一个数学理论，但其概念已被广泛应用于统计物理学的基础、随机性的解释以及关于混沌本质的讨论，以及其他领域如经济学等。我们介绍 EH 并讨论其应用。

动力系统

遍历理论中的研究对象是一个动力系统。我们首先通过一个简单的例子介绍一些基本概念，从中抽象出动力系统的一般定义。有关现代动力系统概念及相关概念的简要历史，请参阅附录 A 节。

一个铅球挂在弹簧上。然后我们把它拉下一点，然后放开。铅球开始振荡。铅球的机械状态完全由其质心位置 x 和动量 p 的规定确定；也就是说，如果我们知道 x 和 p，那么我们就知道了铅球的机械状态的所有内容。如果我们现在将 x 和 p 连接在一个向量空间中，我们就得到了所谓的系统相空间 X（有时也称为“状态空间”）。这在图 1 中进行了说明，用于描述一个铅球上下运动的二维相空间（即相空间有一个维度表示铅球的位置，另一个维度表示其动量）。

图 1：弹簧上球的运动。

每个 X 点代表球的一个状态（因为它给出了球的位置和动量）。因此，球状态的时间演化在 X 中由一条线表示，即所谓的相空间轨迹（从现在开始称为“轨迹”），显示系统在每个时间点处于相空间的位置。例如，假设在时间 t=0 时，球位于点 x1，然后移动到 x2，在时间 t=5 到达那里。这种运动在 X 中由连接点 γ1 和 γ2 的线段表示。换句话说，球的运动在 X 中由代表球（瞬时）状态的点的运动表示，球在一定时间内所处的所有状态共同形成一个轨迹。这个点的运动有一个名称：相流 ϕt。相流告诉我们，如果我们指定 t=0 时球在哪里，那么在一段时间后 t 球在哪里；或者用隐喻的说法，ϕt 在 X 中拖动球的状态，使状态的移动表示真实球的运动。换句话说，ϕt 是系统时间演化的数学表示。时间 t=0 时球的状态通常称为初始条件。然后 ϕt 告诉我们，对于相空间中的每个点，如果选择它作为初始条件，这个点如何演化。在我们的具体例子中，点 γ1 是初始条件，我们有 γ2=ϕt=5(γ1)。更一般地，让我们称球的初始条件为 γ0，让 γ(t)表示它在一段时间 t 后的状态。那么我们有 γ(t)=ϕt(γ0)。这在图 2a 中有所说明。

图 2：相位空间中的演化。

由于 ϕt 告诉我们 X 中每个点如何随时间演变，它也告诉我们点集如何移动。例如，在 X 中选择一个任意集合 A；然后 ϕt(A)是系统动力学下经过 t 个时间单位后 A 的图像。这在图 2b 中有所说明。在考虑这种数学形式主义的物理应用时，考虑点集而不是单个点是重要的。我们永远无法确定弹簧上弹球的确切初始条件。无论我们多么精确地测量 γ0，总会存在一些测量误差。因此，在实际应用中我们真正想知道的不是一个精确的数学点如何演变，而是围绕初始条件 γ0 的一组点如何演变。在我们的弹球示例中，演变是“温和的”，即该集合保持其原始形状。正如我们将在下文看到的，情况并非总是如此。

X 的一个重要特征是它被赋予了所谓的度量 μ。我们在许多情境中都熟悉度量：从数学角度来看，我们赋予线段的长度，平面的表面以及空间的一部分的体积都是度量。度量只是一种工具，用于给空间的一部分赋予“大小”。虽然 X 是一个抽象的数学空间，但度量的主要思想仍然相同：它是一种量化集合大小的工具。因此，我们说集合 A 的度量为 μ(A)，就像我们说普通空间的某个点集（例如位于瓶子内部的点）具有一定的体积（例如一升）一样。

从更正式的角度来看，度量为集合 X 的某些子集分配数字（有关正式定义，请参见附录 B）。这可以通过不同的方式完成，因此有不同的度量。考虑一个平面的例子。有一种度量仅为平面的每个适当区域分配该区域的面积。但现在想象一下我们在平面上倒了一桶糖。糖并没有均匀分布；有些地方有小堆，而其他地方几乎没有糖。与面积度量不同的度量是将一个区域分配给一个数字，该数字等于该区域上的糖量。其中一种度量尤为重要，即所谓的勒贝格度量。这种度量具有直观的解释：它只是我们在几何学中常用的度量的精确形式化。区间 [0, 2] 的勒贝格度量为 2，区间 [3, 4] 的勒贝格度量为 1。在二维空间中，边长为勒贝格度量 2 的正方形的勒贝格度量为 4；等等。尽管听起来很简单，但度量理论的数学理论相当复杂。我们在附录 B 的基础上陈述了度量理论的基础，并在接下来的内容中避免涉及度量理论中的技术问题。

到目前为止讨论中的基本要素是相空间 X、时间演化 ϕt 和测度 μ。这些也是定义抽象动力系统的要素。抽象动力系统是一个三元组 [X,μ,Tt]，其中 {Tt∣t 是时间的瞬间} 是一族自同构，即，一族将 X 映射到自身的变换，具有性质 Tt1+t2=Tt1(Tt2) 对于所有 x∈X (Arnold and Avez 1968, 1)；我们将在下文更多地讨论时间。[2] 在上述例子中，X 是球运动的相空间，μ 是勒贝格测度，Tt 是 ϕt。

到目前为止，我们已经将 Tt 描述为系统的时间演化。现在让我们从更数学的角度来看待这个问题：Tt 的作用是在经过 t 个时间单位后，将 X 中的每一点分配给 X 中的另一点。在上面的例子中，在 t=5 秒后，γ1 通过 ϕt 映射到 γ2。因此，从数学角度来看，系统的时间演化实际上是将 X 映射到自身，这就是为什么上面的定义将 Tt 视为 X 到自身的映射族。这样的映射是一种规定，告诉您 X 中的每一点 x 被映射到 X 中的哪个其他点（从现在开始，我们使用 x 来表示 X 中的任意一点，不再像上面的例子中代表球的位置）。

遍历理论中研究的系统是前向确定性的。这意味着如果系统的两个相同副本在某一时刻处于相同状态，那么它们在所有未来时刻都必须处于相同状态。直观地说，这意味着对于任何给定的时间，系统只有一种向前演化的方式。有关确定性的讨论，请参阅 Earman (1986)。

这里需要指出，在一个抽象的动力系统中并没有特定的解释意图。我们通过力学的一个例子来激发了这个定义，但动力系统并不局限于该背景。它们是独立的数学对象，因此可以独立于特定应用进行研究。这使得它们成为许多不同领域中的多功能工具。事实上，动力系统被用于物理学、生物学、地质学和经济学等各种领域。

有许多不同种类的动力系统。最重要的三个区别如下。

离散与连续时间。我们可以考虑离散的时间瞬间或一系列时间瞬间。为了方便起见，我们将在第一种情况下说时间是离散的，在第二种情况下说时间是连续的。这只是一个方便的术语，对于时间是基本上离散还是连续并没有什么含义。在上面的例子中，球的时间是连续的（被视为实数）。但通常将时间视为离散是方便的。如果时间是连续的，那么 t 是一个实数，自同构族是{Tt∣t∈R}，其中 R 是实数集。如果时间是离散的，那么 t 在集合 Z 中，Z={…−2,−1,0,1,2,…}，自同构族是{Tt∣t∈Z}。为了表明我们正在处理一个离散的族而不是一个连续的族，我们有时会用'Tn'代替'Tt'；这只是一个没有概念重要性的符号约定。[3] 在这种系统中，从一个时间瞬间到下一个时间瞬间的过程也被称为“步骤”。例如，在种群生物学中，我们经常想知道种群在典型的繁殖时间（例如一年）内是如何增长的。在这种种群的数学模型中，X 中的点代表种群的大小（而不是球的位置和动量，如上面的例子中），变换 Tn 代表种群在 n 个时间单位后的增长。一个简单的例子是 Tn=x+n。

离散自同构的家族具有一个有趣的特性，即它们由一个映射生成。正如我们在上面看到的，所有自同构都满足 Tt1+t2=Tt1(Tt2)。由此可知，Tn(x)=Tn1(x)，即 Tn 是 T1 的第 n 次迭代。在这个意义上，T1 生成 {Tt∣t∈Z}；换句话说，{Tt∣t∈Z} 可以被“简化”为 T1。因此，人们经常省略下标‘1’，简单地称映射为‘T’，并将动力系统写成三元组 [X,μ,T]，其中理解为 T=T1。

为了方便起见，我们从现在开始使用离散变换。我们在下面制定的定义和定理可以毫不费力地延伸到连续变换，如果情况不是这样，我们会明确说明并分别处理这两种情况。

测度保持与非测度保持的转换。粗略地说，一个转换是测度保持的，如果一个集合的大小（如上例中的集合 A）随着时间的推移不会改变：一个集合可以改变其形式，但不能在测度方面收缩或增长。形式上，如果且仅当对于 X 中的所有集合 A：μ(A)=μ(T−1(A))，其中 T−1(A)是在 T 下映射到 A 的点的集合；即 T−1(A)={x∈X∣T(x)∈A}。[4] 从现在开始，我们还假设我们考虑的转换是保持测度的。[5]

从现在开始，除非另有说明，我们考虑离散测度保持变换。

为了介绍遍历性的概念，我们必须介绍函数 f 在 X 上的相位和时间均值。从数学角度来看，一个函数为 X 中的每个点分配一个数字。如果数字总是实数，则函数是实值函数；如果数字可能是复数，则它是复值函数。直观地，我们可以将这些数字看作表示感兴趣的物理量。回想一下弹跳球的例子，例如，f 可以为相位空间 X 中的每个点分配系统在该点具有的动能；在这种情况下，我们将有 f=p2/2m，其中 m 是球的质量。对于每个函数，我们可以进行两种类型的平均。第一种是无限时间平均 f∗。时间平均的一般概念在日常环境中是熟悉的。您连续三个星期六买彩票。在第一个星期六，您赢得了

1kk−1∑i=0f(Ti(x0)),

把握遍历层次

k−1∑i=0f(Ti(x0)),

只是对 Ergodic Hierarchys（遍历层次）的缩写

f(x0)+f(T1x0)+…+f(Tk−1x0).

这是在第 k 步之后 f 的有限时间平均值。如果系统的状态继续无限演化，我们永远跟踪系统，那么我们得到无限时间平均值：

f∗=limk→∞1kk−1∑i=0f(Ti(x0)),

符号“lim”（来自拉丁语“limes”，意为边界或极限）表示我们让时间趋于无穷大（在数学符号中：∞）。有一点值得特别注意，因为它以后将变得至关重要：上述表达式中的 x0 的存在。时间平均值取决于系统的起始位置；即它们取决于初始条件。如果过程从不同状态开始，则时间平均值可能会有所不同。

接下来我们有空间平均值 ¯f。让我们再次从一个口语化的例子开始：某所学校学生的平均身高。这很容易计算：只需取每个学生的身高，将所有数字相加，然后将结果除以学生人数。从技术上讲，这是一个空间平均值。在这个例子中，学校里的学生对应于 X 中的点；我们计算每个学生一次的事实（例如，我们不会两次计算约翰的身高并省略吉姆的身高）对应于选择一个给 X 中每个点赋予相等“权重”的度量。变换 T 在我们的例子中没有对应物，这是故意的：空间平均值与系统的动态无关（这是它们与时间平均值的区别所在）。空间平均值的一般数学定义如下：

¯f=∫xf(x)dμ,

在这里，∫X 是对相空间 X 的积分。[6] 如果空间由离散元素组成，比如学校的学生（它们是“离散的”，因为你可以数清它们），那么积分就等同于求和，就像我们确定人口平均身高时所做的那样。如果 X 是连续的（如上面的相空间），事情就会变得更加复杂。

遍历性

有了这些概念，我们现在可以定义遍历性。[7] 动力系统 [X,μ,T] 是遍历的，如果

f∗=¯f

对于几乎所有的复值勒贝格可积函数 f，几乎处处成立，意味着几乎所有的初始条件。资格“几乎处处成立”是非平凡的，也是统计力学基础中一个著名问题的根源，即所谓的“零测问题”（我们将在第 3 节讨论）。因此，值得仔细解释这个条件涉及的内容。并非所有集合都具有有限大小。事实上，存在零测集。这可能听起来抽象，但却非常自然。拿一把尺子，测量某些物体的长度。例如，您会发现您的铅笔长 17 厘米—用数学语言来说，这意味着这支一维勒贝格尺度的铅笔长度为 17。现在测量一个几何点并回答问题：点有多长？答案是这样的点没有延伸，因此其长度为零。在数学术语中：由几何点组成的集合是一个零测集。对于两个几何点的集合也是如此：两个几何点在一起也没有延伸，因此具有零测。另一个例子是：您有一个设备来测量平面上物体的表面。您发现 A4 纸的表面积为 623.7 平方厘米。然后有人问您一条线的表面积是多少。答案是：零。线没有表面积。因此，就二维勒贝格测度而言，线是零测集。

在遍历理论的背景下，“几乎处处”意味着，根据定义，“几乎处处”指的是“在 X 的每个地方，除了可能在一个零测集合中”。也就是说，每当一个断言被限定为“几乎处处”，这意味着它可能对 X 中的某些点是错误的，但这些点一起构成了一个零测集。现在我们可以解释在遍历性定义中这个短语的含义。正如我们在上面看到的，时间平均值（但不是空间平均值！）取决于初始条件。如果我们说 f∗=¯f 几乎处处，我们的意思是所有那些使得 f∗≠¯f 的初始条件一起构成了一个零测集合——它们就像平面上的一条线。

具有对遍历性定义的理解，我们现在可以讨论一些遍历系统的重要特性。考虑 X 的子集 A。例如，再次考虑振荡球的例子，取相空间的左半部分。然后定义所谓的 A 的特征函数，记为 fA，如下所示：对于 A 中的所有 x， fA(x)=1，对于不在 A 中的所有 x， fA(x)=0。将此函数代入遍历性的定义得到： f∗A=μ(A)。这意味着系统状态在集合 A 中花费的时间比例与该集合的度量成比例。为了使这更直观，假设度量已被归一化： μ(X)=1（这是一个非常常见且无问题的假设）。如果我们选择 A 使得 μ(A)=1⁄2，那么我们知道系统在 A 中花费一半的时间；如果 μ(A)=1⁄4，它在 A 中花费四分之一的时间；等等。正如我们将在下文看到的，这种遍历系统的特性在某些统计力学方法中起着至关重要的作用。

由于我们可以自由选择 A，我们立即得到另一个重要结果：只有当系统的轨迹可以访问 X 的所有具有正测度的部分时，系统才能是遍历的，即，如果轨迹在时间趋于无穷时无限接近 X 中的任意点。这意味着遍历系统的相空间被称为度量不可分解的（或者也称为“不可约”或“不可分割”）：在 T 下不变的每个集合（即，在 T 下映射到自身的每个集合）的度量要么为 0，要么为 1。因此，X 不能被分成两个或更多的在 T 下不变的子空间（非零测度）。反之，非遍历系统是度量可分解的。因此，度量不可分解性和遍历性是等价的。度量可分解的系统在图 3 中以示意图形式说明。

图 3：可还原系统：区域 P 中的点不会演化为区域 Q，反之亦然。

最后，我们想陈述一个在第 4 节中将变得重要的定理。可以证明一个系统是遍历的当且仅当它是遍历的。

(E)limn→∞1nn−1∑k=0μ(TkB∩A)=μ(b)μ(A)

对于 X 的所有子集 A 和 B 都成立。尽管这个条件没有直接的直观解释，但我们将在下面看到，这对于理解我们在遍历系统中发现的随机性的类型至关重要。

遍历层次

遍历性实际上只是整个动力学性质层次结构的底层。这个层次结构被称为遍历层次，研究这个层次结构是数学学科遍历理论的核心任务。这种术语的选择有些误导，因为遍历性只是这个层次结构的底层，因此遍历层次包含的远不止遍历性，而遍历理论的范围远远超出了遍历性。遍历理论（如此理解）是动力系统理论的一部分，它研究的动力系统类别比遍历理论更广泛。

EH 是动力学属性的嵌套分类。该层次结构通常表示为包含以下五个层次：

伯努利 ⊂ 科尔莫哥洛夫 ⊂ 强混合 ⊂ 弱混合 ⊂ 遍历

图表旨在表明所有 Bernoulli 系统都是 Kolmogorov 系统，所有 Kolmogorov 系统都是强混合系统，依此类推。因此，EH 中的所有系统都是遍历的。然而，逆向关系并不成立：并非所有遍历系统都是弱混合的，依此类推。在接下来的内容中，一个既是遍历又不是弱混合的系统被称为纯粹遍历，对于接下来的三个层次也是如此。[8]

(4a) (Beddor, 2024)

(4b)（4b）

图 4：混合

混合可以通过以下示例直观解释，这是吉布斯首次引入混合概念时使用的。从一杯水开始，然后加入一杯威士忌；如图 4a 所示。鸡尾酒（威士忌+水）的体积 C 为 μ(C)，添加到水中的威士忌的体积为 μ(S)，因此在 C 中，威士忌的浓度为 μ(S)/μ(C)。

现在搅拌。在数学上，搅拌由时间演化 T 表示，意味着 T(S)是苏格兰威士忌在混合时间单位后所占据的区域。直观地说，我们称鸡尾酒被充分混合，如果苏格兰威士忌的浓度等于 μ(S)/μ(C)，不仅相对于流体的整体体积，而且相对于该体积中的任何区域 V。因此，如果在时间 n 时，饮料在任何区域 V 中的浓度等于 μ(S)/μ(C)，则饮料在时间 n 时被充分混合。

μ(TnS∩V)μ(V)=μ(S)μ(C)

对于任何非零测度的体积 V。现在假设鸡尾酒的体积为一个单位：μ(C)=1（我们可以这样做而不失一般性，因为总是存在一个单位制度，其中玻璃的体积为一）。那么，如果鸡尾酒被彻底混合，则遍历层次。

μ(TnS∩V)μ(V)=μ(S)

对于任何非零测度的区域 V。但在搅拌结束并且鸡尾酒充分搅拌之前，n 必须有多大？我们现在不要求饮料在任何有限时间内必须被彻底混合，而只要求随着时间趋近于无穷大，它接近于完全混合的状态：

极限 n 趋向无穷大时，μ(TnS∩V) / μ(V) = μ(S)

对于任何区域 V（非零测度）。如果我们现在将玻璃与相空间 X 关联，并用两个任意子集 A 和 B 替换苏格兰威士忌 S 和体积 V，则我们得到所谓强混合的一般定义（通常也简称为“混合”）：系统是强混合的，如果遍历层次。

(S-M)limn→∞μ(TnB∩A)=μ(B)μ(A)

对于 X 的所有子集 A 和 B。通过允许波动，可以放宽这种混合要求一点点。[9] 也就是说，我们现在只要求鸡尾酒在平均上被混合，而不是要求它达到均匀混合的状态。换句话说，我们允许苏格兰威士忌或水的气泡偶尔出现，但它们以一种方式出现，使得这些波动随着时间趋于无穷大而平均。这在数学上可以直接表达。在某个时间 n 的理想混合状态的偏差是 μ(TnB∩A)−μ(B)μ(A)。这些偏差的平均值为零的要求激发了弱混合的概念。系统是弱混合的，如果对于 X 的所有子集 A 和 B。通过允许波动，可以放宽这种混合要求一点点。[9] 也就是说，我们现在只要求鸡尾酒在平均上被混合，而不是要求它达到均匀混合的状态。换句话说，我们允许苏格兰威士忌或水的气泡偶尔出现，但它们以一种方式出现，使得这些波动随着时间趋于无穷大而平均。这在数学上可以直接表达。在某个时间 n 的理想混合状态的偏差是 μ(TnB∩A)−μ(B)μ(A)。这些偏差的平均值为零的要求激发了弱混合的概念。系统是弱混合的，如果

(W-M)limn→∞1nn−1∑k=0|μ(TnB∩A)−μ(B)μ(A)|=0

对于集合 X 的所有子集 A 和 B。垂直线表示所谓的绝对值；例如： |5|=|−5|=5。可以证明我们迄今介绍的三个动力学性质之间存在严格的蕴涵关系：强混合蕴含弱混合，但反之不成立；弱混合蕴含遍历性，但反之不成立。因此，强混合是比弱混合更强的条件，而弱混合是比遍历性更强的条件。

EH 中的下一个更高层是 K-系统。与遍历和混合系统不同，遗憾的是，没有直观的方法来解释这些系统的标准定义，而且定义是这样的，以至于人们无法从中推断出 K-系统的特征（我们在附录 C 节中陈述了这一定义）。呈现 K-系统最不直观的方法是通过 Cornfeld 等人（1982 年，283 页）的一个定理，他们证明了一个动力系统是 K-系统当且仅当它是 K-混合的。一个系统是 K-混合的，当且仅当对于 X 的任意子集 A0，A1，…，Ar（其中 r 是您选择的自然数）满足以下条件：

(K-M)limn→∞supB∈σ(n,r)|μ(TnB∩A)−μ(B)μ(A)|=0

σ(n,r) 是由集合生成的最小 σ-代数

{TkAj∣k≥n; j=1,…,r}.

这所谓的 σ 代数是什么并不明显，因此这个条件的内容并不立即透明。我们将在第 5 节回到这个问题，在那里我们将对这个条件进行直观的阐释。目前重要的是它与混合条件的相似性。强混合在暂时是等价于这所谓的 σ 代数是什么并不明显，因此这个条件的内容并不立即透明。我们将在第 5 节回到这个问题，在那里我们将对这个条件进行直观的阐释。目前重要的是它与混合条件的相似性。强混合在暂时是等价于遍历层次。

极限→∞μ(TnB∩A)−μ(B)μ(A)=0

遍历层次表明 K-混合在强混合中增加了一些内容。

我们顺便提一下 K-系统的另一个重要特性：可以证明 K-系统具有正科尔莫哥洛夫-辛钠熵（KS-熵）；详情请参见附录，第 C 部分。KS-熵本身没有直观解释，但它与动力系统理论的另外三个概念有趣地相关，而这些概念确实有直观解释。首先，Lyapunov 指数是衡量最初相邻轨迹平均分散速度的指标，它们经常用于混沌理论中来描述系统动力学的混沌性质。在某些情况下（基本上，系统必须是可微的和遍历的），可以证明一个动力系统具有正 KS-熵当且仅当它具有正的 Lyapounov 指数（Lichtenberg and Liebermann 1992, 304）。在这样的系统中，最初任意接近的轨迹呈指数级分散。这一结果被称为 Pessin 定理。其次，序列的算法复杂度是重现该序列所需的最短计算机程序的长度。有些序列很简单；例如，一个由一百万个‘1’组成的字符串很简单：重现它所需的程序基本上是‘写一百万次‘1’’，非常简短。其他序列则很复杂：在序列 5%8£yu@mS!}< 74^F 中没有任何模式可供利用，因此重现该序列的程序基本上是‘写 5%8£yu@ mS!}<74^F’，与序列本身的长度相似。在离散情况下，轨迹可以表示为符号序列，这些符号对应于沿着该轨迹的系统状态。然后，如果一个系统是 K-系统，那么它的 KS-熵等于几乎所有轨迹的算法复杂度（Brudno 1978）。这现在被称为 Brudno 定理（Alekseev and Yakobson 1981）。第三，香农熵是未来结果不确定性的常见度量：熵越高，我们对将发生的事情越不确定。可以证明，在给定某些合理假设的情况下，KS-熵等同于香农熵的广义版本，并因此可以被视为给定过去事件的未来事件不确定性的度量（Frigg 2004）。

伯努利系统标记了 EH 中的最高层。为了定义伯努利系统，我们首先必须介绍 X 的一个划分的概念（有时也称为“X 的粗粒化”）。X 的一个划分是将 X 分成不同部分（划分的“原子”）的过程，使得这些部分不重叠并共同覆盖 X（即它们是互斥且共同耗尽的）。例如，在图 1 中，有一个相空间的划分，其中有两个原子（左边和右边部分）。更正式地说，α={α1,…,αn}是 X 的一个划分（αi 是其原子），如果（i）划分的任意两个原子的交集是空集，且（ii）所有原子的并集是 X（最多是零测度）。此外，重要的是要注意，划分在系统的动力学下仍然保持为划分。也就是说，如果 α 是一个划分，那么对于所有 n，Tnα={Tnα1,…,Tnαn}也是一个划分。

当然，对相空间进行划分有许多不同的方式。接下来我们将研究不同划分之间的关系。在这种联系中一个重要的概念是独立性。设 α 和 β 是 X 的两个划分。根据定义，这些划分是独立的，当且仅当对于 α 的所有原子 αi 和 β 的所有原子 βj，μ(αi∩βj)=μ(αi)μ(βj)。我们将在第 4 节解释这个定义的直观含义（并证明称其为“独立”是合理的）；目前我们只将其作为一个形式定义。在遍历层次中，有许多不同的相空间划分方式。接下来我们将研究不同划分之间的关系。在这种联系中一个重要的概念是独立性。设 α 和 β 是 X 的两个划分。根据定义，这些划分是独立的，当且仅当对于 α 的所有原子 αi 和 β 的所有原子 βj，μ(αi∩βj)=μ(αi)μ(βj)。我们将在第 4 节解释这个定义的直观含义（并证明称其为“独立”是合理的）；目前我们只将其作为一个形式定义。

现在手头有这些概念，我们现在可以定义一个伯努利变换：如果存在一个分割 α，使得在不同时间点下 T 的 α 的图像是独立的，那么变换 T 就是一个伯努利变换；也就是说，分割…，T−1α，T0α，T1α，…都是独立的。换句话说，T 是一个伯努利变换，如果存在一个分割 α，使得在不同时间点下 T 的 α 的图像是独立的。

(B)μ(δi∩βj)=μ(δi)μ(βj)

对于 Tkα 的所有原子 δi 和 Tlα 的所有原子 βj，对于所有 k≠l。然后我们将 α 称为伯努利分割，并且如果 T 是伯努利自同构，即将 X 映射到自身的伯努利变换，则我们称动力系统 [X,μ,T] 为伯努利系统。

让我们用一个众所周知的例子来说明，即面包师的变换（因其类似于揉面团而得名）。这种变换将单位正方形映射到自身。使用标准的笛卡尔坐标系，这个变换可以写成如下形式：

T(x,y)=(2x,y^2) for 0≤x< 12, andT(x,y)=(2x−1,y^2+12) for 12≤x≤1

在单位正方形中，对于所有具有 x 坐标小于 1/2 的点(x,y)，变换 T 使 x 的值加倍，y 的值减半。对于所有具有 x 坐标大于或等于 1/2 的点(x,y)，T 将 x 转换为 2x−1，y 转换为 y/2+1/2。如图 5a 所示。

图 5a：面包师的转换

现在将上图左侧显示的两个区域视为分割 α={α1,α2}的两个原子。很容易看出 α 和 Tα 是独立的：μ(α1∩Tα2)=μ(α1)μ(Tα2)，对于 α 和 Tα 的所有其他原子也是如此。这在图 5b 中有所说明。

图 5b：α 和 Tα 的独立性。

一个可以证明独立性对于所有其他的 α 的迭代也成立。因此，面包师的转换与分区 α 一起构成了一个伯努利转换。

在文献中，伯努利系统通常是通过所谓的移位映射（或伯努利移位）来介绍的。我们在这里简要说明了移位映射如何与伯努利系统相关联，以烘焙师变换为例；更一般的讨论请参见附录，第 D 节。在单位正方形中选择一个点，并将其 x 和 y 坐标写成二进制数：x=0.a1a2a3…和 y=0.b1b2b3…，其中所有的 ai 和 bi 要么是 0，要么是 1。现在将这两个字符串背靠背放在一起，并在中间用一个点连接起来形成一个无限字符串：S=…b3b2b1.a1a2a3…，这可以表示系统的状态，就像一个“标准”的二维向量一样。一些简单的代数运算随后表明，遍历层次的状态可以通过这种方式表示，就像一个“标准”的二维向量一样。

T(0.a1a2a3…,0.b1b2b3…)=(0.a2a3a4…,0.a1b1b2b3b4…)。

从这里我们看到，在我们对点的“一串”表示中，T 的操作相当于将点向右移动一个位置：TS=…b3b2b1a1.a2a3… 因此，面包师的转换等同于在一个无限的零和一的字符串上进行移位。[11]

存在两个对于伯努利系统理论至关重要的概念，即弱伯努利性质和非常弱伯努利性质。这些性质在展示某些变换实际上是伯努利的过程中起着至关重要的作用。面包师变换是少数几个具有几何简单伯努利分区的示例之一，因此通常无法直接证明系统是伯努利系统。然后，人们展示某个几何简单分区是弱伯努利的，并使用奥恩斯坦的定理表明，如果一个系统是弱伯努利的，则存在一个针对该系统的伯努利分区。这些概念的数学以及相关等价证明是复杂的，对它们的介绍超出了本条目的范围。感兴趣的读者可以参考奥恩斯坦（1974）或 Shields（1973）。

遍历层次与统计力学

EH 的概念，尤其是遍历性本身，在统计力学（SM）的基础中扮演着重要角色。在本节中，我们回顾这些角色是什么。

SM 的讨论面临着一个直接的问题。许多其他物理领域的基础性辩论可以以一个普遍接受的形式主义作为出发点。在 SM 中情况有所不同。与相对论理论不同，SM 尚未找到一个普遍接受的理论框架，更不用说一个规范的表述。[12] 在 SM 中，我们发现了许多不同的方法和学派，每个都有自己的方案和数学工具。[13] 然而，所有这些学派都使用两种理论框架的轻微变体之一，其中一种可以与 Boltzmann（1877）相关联，另一种可以与 Gibbs（1902）相关联，因此可以被分类为“Boltzmannian”或“Gibbsian”。因此，我们将 SM 的介绍分为两部分，分别介绍这两个方法家族中的一个。

在深入讨论这些理论之前，让我们通过一个常见的例子简要回顾 SM 的基本原则。考虑一个被限制在盒子左半部分的气体。现在移除分隔盒子两半的障碍物。结果，气体迅速扩散，并持续这样做，直到均匀填满整个盒子。气体已接近平衡。这引发了两个问题。首先，平衡如何表征？也就是说，系统何时处于平衡状态？其次，我们如何表征接近平衡？也就是说，接近平衡的显著特征是什么，系统的哪些特征使其表现出这种行为？这些问题在 SM 的两个子学科中得到解答：平衡 SM 和非平衡 SM。

有两种不同的描述气体扩散等过程的方式。热力学使用一些宏观变量来描述系统（在气体压力、体积和温度的情况下），同时忽略了气体的微观构成。就热力学而言，物质可以是一个连续体，而不是由粒子组成——这只是不会有任何区别。因此，热力学被称为“宏观理论”。

热力学的基石是所谓的热力学第二定律。这一定律描述了上述过程的一个显著特征：其单向性。我们看到气体扩散——即，我们看到它们朝着平衡演化——但我们从未观察到气体自发地恢复到盒子的左半部分——也就是说，当它们被单独留下时，我们从未看到它们远离平衡。而这并不是气体的特定特征。事实上，不仅气体，而且所有其他宏观系统都以这种方式行为，无论它们的具体组成如何。这一事实被载入热力学第二定律中，大致上陈述了从平衡到非平衡状态的转变不会发生在孤立系统中，这等同于说在孤立系统中熵不会减少（当一个系统与其环境没有互动时，即没有热交换，没有人压缩气体等，系统就是孤立的）。

但是，有一种完全不同的看待这种气体的方式；也就是说，将其视为由大量分子组成（实验室桌上的一个容器大约含有约 1023 个分子）。这些分子在容器壁撞击和相互碰撞时受到的力的影响下来回弹动。每个分子的运动都受经典力学定律的控制，就像弹跳球的运动一样。因此，我们可以尝试通过研究其微观组成部分的动态来理解气体的行为，而不是将一些宏观变量归因于气体并专注于它们。

这引发了一个问题，即如何将这两种看待气体的方式结合起来。由于热力学方法和力学方法都没有任何特权地位，因此两者都必须得出相同的结论。统计力学是解决这一任务的学科。从更抽象的角度来看，我们还可以说，统计力学是研究微观物理学和宏观物理学之间联系的学科：它旨在根据控制其微观组成部分的动力学规律来解释系统的宏观行为。其名称中的“统计”一词是因为，正如我们将看到的那样，只有在理论中引入概率元素时，才能给出力学解释。

4.1 Boltzmannian SM4.1 Boltzmannian SM

我们首先介绍 Boltzmannian 框架的主要元素，然后转向其中对遍历性的使用。每个系统都可以拥有各种宏观态 M1,…,Mk。这些宏观态的特征是由宏观变量的值来描述的，在气体的情况下是压力、温度和体积。[14] 在介绍的例子中，一个宏观态对应于气体被限制在左半部分，另一个对应于它被扩散开来。事实上，这两个状态具有特殊的地位：前者是气体的初始状态（也称为“过去状态”）；后者是气体的平衡状态。我们分别标记这些状态为 Mp 和 Meq。

这是玻尔兹曼方法的一个基本假设，即宏态是微态的监督者，这意味着系统宏态的变化必须伴随着其微态的变化（有关监督的讨论，请参见 McLaughlin 和 Bennett 2005 年以及其中的参考文献）。例如，不可能改变系统的压力同时保持其微态恒定。因此，对于每个给定的微态 x，都对应着一个宏态。让我们将这个宏态称为 M(x)。这种确定关系并非一一对应；实际上，许多不同的 x 可以对应到同一个宏态。我们现在将所有对应于相同宏态的微态 x 分组在一起，这导致了相空间的划分成不重叠的区域，每个区域对应一个宏态。因此，我们还使用相同的字母 M1，...，Mk 来指代宏态和相空间中相应的区域。这在图 6a 中有所说明。

(6a)

(6b) (6b)

图 6：X 的宏观状态结构。

我们现在可以介绍玻尔兹曼熵。为此，请回想我们在相空间上有一个度量 μ，它为每个集合分配一个特定的体积，因此也自然地为宏观态分配体积。考虑到这一点，宏观态 Mj 的玻尔兹曼熵可以定义为 SB=kBlog [μ(Mj)]，其中 kB 是玻尔兹曼常数。对数的重要特征是它是一个单调函数：Mj 越大，其对数就越大。由此可知，最大的宏观态也具有最高的熵！

可以表明，至少在稀薄气体的情况下，玻尔兹曼熵与热力学熵相符（即两者对基本状态变量具有相同的函数依赖性），因此可以认为平衡态是玻尔兹曼熵最大的宏观态（因为热力学假设熵在平衡态时最大）。根据假设，系统最初处于低熵状态，初始状态 Mp（气体被挤压到箱子的左半部分）。解释系统接近平衡的问题实际上就是回答这个问题：为什么最初处于 Mp 的系统最终会移动到 Meq，然后停留在那里？（见图 6b。）

在 1870 年代，玻尔兹曼提出了对这个问题的重要回答。[15] 在他的回答核心是根据宏观状态的大小为其分配概率的想法。因此，玻尔兹曼采纳了以下假设：对于所有 j=1,…,k，p(Mj)=cμ(Mj)，其中 c 是一个确保概率总和为一的归一化常数。在获得这个假设后，立即得出最可能的状态是平衡状态（因为平衡状态占据相空间的最大部分）。从这个角度来看，理解达到平衡的过程似乎自然地是从一个不太可能的宏观状态演变到一个更可能的宏观状态，最终到最可能的宏观状态。玻尔兹曼认为，这是热力学第二定律的统计学理由。

但是玻尔兹曼知道，仅仅假设 p(Mj)=cμ(Mj)是不能解决问题的，除非这个假设能够从系统动力学的角度得到证明。这就是遍历性进入场景的地方。正如我们前面所看到的，遍历系统具有在相空间的每个部分中花费与其大小成比例的时间分数的特性（相对于 μ）。正如我们也看到的，平衡态是最大的宏观态。实际上，平衡态要比其他状态大得多。因此，如果我们假设系统是遍历的，那么它大部分时间都处于平衡状态！然后自然地将 p(Mj)解释为时间平均值：p(Mj)是系统在一段时间内处于状态 Mj 的时间分数。我们现在面前有了玻尔兹曼框架的主要要素：（a）将系统的相空间划分为宏观态，并展示平衡态远远大于其他状态；（b）采用概率的时间平均解释；以及（c）假设所讨论的系统是遍历的。因此，系统最有可能处于平衡状态，这证明了（第二定律的概率版本）。

对这种思路提出了三个异议。首先，有人指出假设遍历性在两个方面过于强大。首先，证明感兴趣的系统确实是遍历的是非常困难的。与有时所断言的相反，甚至没有证明在一个立方盒子中移动的 n 个弹性硬球系统对于任意 n 都是遍历的；只有对于 n≤4 才已经证明是遍历的。对于这一指控，人们可以回答说，对一些人来说看起来像是失败的东西，对其他人来说却是一个挑战。数学上的进展最终可能会解决这个问题，至少有一个最近的结果可以证明乐观：Simanyi（2004）表明，在三维或更高维度的环面上的 n 个硬球系统是遍历的，对于任意自然数 n。

遍历性似乎过于强大的第二种方式是，即使最终我们可以获得相关系统的遍历性证明，这种假设也过于强大，因为已知存在一些不具备遍历性的系统，但它们的行为却符合第二定律。Bricmont (2001) 调查了 Kac 环模型和一组 n 个未耦合的相同质量的非谐振子系统，并指出这两个系统都表现出热力学行为，但它们并不具备遍历性。因此，遍历性并非热力学行为的必要条件。Earman 和 Redei (1996, p. 70) 以及 van Lith (2001, p. 585) 认为，如果遍历性并非热力学行为的必要条件，那么遍历性就无法为这种行为提供令人满意的解释。要么在系统不具备遍历性的情况下，必须存在除遍历性之外的其他属性来解释热力学行为，要么对于即使是遍历性系统也必须有一种完全不同的解释来解释接近平衡的过程。

对于这一异议，Vranas（1998）和 Frigg 和 Werndl（2011）认为，大多数不符合遍历性的系统在某种可指定的方式上是“几乎遍历性”，这已经足够了。我们在讨论 Gibbsian SM 时将讨论 Vranas 的方法，因为这是他提出建议的背景。Werndl 和 Frigg（2015a，2015b）提出了玻尔兹曼平衡的另一种定义，并利用遍历分解定理来表明，即使系统不是遍历性的，它也会大部分时间处于平衡状态，正如玻尔兹曼所设想的（大致遍历分解定理表明，每个保度量系统的相空间可以被划分为部分，以便动力学在每个部分上是遍历性的；有关详细信息，请参见 Petersen 1983）。Frigg（2009）建议利用几乎所有哈密顿系统都是不可积的这一事实，这些系统具有所谓的 Arnold 网，即相空间的大区域，系统的运动在其中是遍历性的。Lavis（2005）重新审视了 Kac 环模型，并指出，即使系统不是遍历性的，它也具有遍历性分解，这足以保证接近平衡。他还质疑了上述批评中隐含的假设，即为接近平衡提供解释等同于确定所有系统共同具有的一个（仅有一个！）属性。事实上，可能不同的属性负责不同系统接近平衡，没有理由排除这样的解释。总之，所有这些回应的基调是，即使遍历性本身可能没有资源来解释接近平衡，略有修饰的属性可以。

第二个反对意见是，即使遍历性得到满足，这也不足以给予我们所需的。正如我们在上文中所看到的，遍历性伴随着“几乎处处”的限定。这一限定通常被理解为表明可以忽略零测度集而不会有损害。这个想法是，落在零测度集中的点是“稀疏”的，因此可以被忽略。是否这种做法是合法的问题被称为“零测度问题”。

忽略零测度集似乎存在各种问题。首先，零测度集可能相当“大”；例如，有理数在实数中具有零测度。此外，零测度集不必是（甚至看起来）微不足道的，如果将集合与其测度以外的属性进行比较。例如，我们可以通过基数或 Baire 范畴来判断集合的“大小”，而不是通过其测度，这会导致我们对集合的大小得出不同的结论（Sklar 1993，第 182-188 页）。假设零测度事件不可能发生是错误的。实际上，具有零测度和不可能发生是不同的概念。系统在某个时刻是否处于空间和时间均值不相等的特殊初始条件之一是一个事实问题，不能通过测度来解决；指出这些点在测度理论意义上是稀少的并不能解决问题，因为这并不意味着它们在现实世界中也是稀少的。

在回应中可以说两件事。首先，在物理学中，忽略零测度集是标准做法，这个问题并不特定于遍历理论。因此，除非有充分理由怀疑特定的零测度状态实际上很重要，否则可以认为在这种情况下忽略它们是不合法的人需要举出证据。其次，SM 在如此多的情况下有效工作的事实表明它们确实是稀有的。

第三个批评很少被明确表达，但它显然是当代 Boltzmannian 方法对 SM 的背景，例如 Albert（2000）的背景，他们拒绝了 Boltzmann 的起点，即假设 p（Mj）=cμ（Mj）。Albert 提出了一种替代假设，基本上提供了两个宏观状态之间的转移概率，条件是所谓的过去假设，即宇宙以低熵状态（大爆炸）的形式出现。然后，Albert 认为在这样的描述中，遍历性变成了一个无用的轮子，因此他认为它与 SM 的基础完全无关。然而，这可能过于仓促。尽管遍历性本身无法证明 Albert 的概率假设，但为了使这个假设成立，需要另一个动力学假设（Frigg 2010）。

4.2 Gibbsian SM

Gibbs'方法的基础是一个概念转变。在 Boltzmannian 框架中研究的对象是一个个体系统，由大量但有限数量的微观组成部分构成。相比之下，在 Gibbs 框架中，研究的对象是所谓的集合：一个想象中的无限多个相同系统的副本集合（它们相同的是它们具有相同的相空间、动力学和测度），但它们恰好处于不同的状态。例如，气体的集合由无限多个相同气体的副本组成，但处于不同的状态：一个集中在盒子的左角，一个均匀分布等。强调集合是虚构的，或者是“考虑中的一个系统的心理副本”（Schrödinger 1952, 3）；或者可以将其视为整个系统可能状态的集合。因此，重要的是不要将集合与微观对象的集合混淆，比如气体的分子！

一个整体系统的瞬时状态由其相空间中的一个点来确定。因此，整体系统的状态由系统相空间上的密度函数 ϱ 来确定。从技术角度来看，ϱ 就像我们在第 1 节中遇到的函数 f 一样。此外，我们假设 ϱ 是一个概率密度，反映了从整个集合中随机选择的系统状态在区域 R 中被找到的概率密度，因此状态在 R 中的概率为 p(R)=∫Rϱdμ。为了使这更直观，考虑以下类比。你玩一种特殊的飞镖游戏：你把一块木板固定在墙上，作为你的飞镖靶。出于某种原因，你知道你的飞镖落在靶板上特定位置的概率由图 7 中显示的曲线给出。然后有人问你，你的下一个飞镖落在靶板左半部的概率是多少。答案是 1 ⁄ 2，因为曲线下面的一半面积在左侧。飞镖靶扮演系统的状态空间的角色，靶板上的一个区域（这里是左半部）扮演 R 的角色，投掷飞镖扮演从集合中选择系统的角色。

图 7：飞镖板

这一点的重要性在于它使我们能够计算期望值。假设游戏是这样的，如果飞镖击中左半部分，你会得到一英镑，如果落在右半部分，你会得到三英镑。你的预期收益是多少？答案是 1⁄2×1 英镑+1⁄2×3 英镑=2 英镑。这就是期望值。相同的思想在 SM 中起作用。物理量，比如压力，与相空间上的函数 f 相关联。然后我们计算这些物理量的期望值，通常由 ⟨f⟩=∫fdμ 给出。在 Gibbsian SM 的背景下，这些期望值也被称为相平均或集合平均。它们非常重要，因为这些值被用作对观测值的预测。因此，如果你想要使用形式主义来预测实验中将会观察到什么，你首先必须弄清楚概率密度 ρ 是多少，然后找到与你感兴趣的物理量相对应的函数 f，然后计算相平均。在实践中，这些步骤都不容易，工作中的物理学家大部分时间都在做这些计算。然而，如果我们对这个“配方”背后的概念问题感兴趣，这些困难就不需要困扰我们。

根据定义，概率密度 ϱ 如果随时间不变，则为稳态。鉴于可观测量与相平均值相关联，并且平衡是以表征系统的宏观参数的恒定性来定义的，因此将分布的稳定性视为平衡的必要条件是很自然的，因为稳定分布产生恒定的平均值。因此，吉布斯将稳定性称为“统计平衡的条件”。

在所有满足进一步要求的稳态分布中，吉布斯最大熵原理发挥着特殊作用。吉布斯熵（有时称为“集成熵”）被定义为在所有满足进一步要求的稳态分布中，符合吉布斯最大熵原理的分布具有特殊作用。吉布斯熵（有时称为“集成熵”）被定义为

SG(ϱ)=−kB∫ϱlog(ϱ)dμ.

Gibbsian 最大熵原理要求在对系统施加的约束条件下，SG(ϱ)达到最大值。[16]

最后一条子句是必不可少的，因为不同的约束条件会导致不同的分布。一个常见的选择是保持系统中的能量和粒子数都固定。可以证明，在这些情况下，SG(ϱ)对于所谓的微正则分布（或微正则系综）是最大的。如果我们选择在保持粒子数恒定的同时允许能量围绕给定平均值波动，我们就得到了所谓的正则分布；如果我们还允许粒子数围绕给定平均值波动，我们就会找到所谓的巨正则分布。[17]

这种形式主义非常成功，因为可以为大量系统推导出正确的预测。但这种形式主义的成功相当令人困惑。第一个最明显的问题涉及系统和总体之间的关系。吉布斯方法中的概率分布是在一个总体上定义的，形式主义提供总体平均值，并且平衡被视为总体的一个属性。但我们真正感兴趣的是单个系统的行为！一个由无限多个真实系统的心智副本组成的虚构实体的属性能告诉我们关于实验台上的一个真实系统的什么？更具体地说，为什么总体上的平均值与在实际物理系统上进行的测量中找到的值相符？没有明显的理由说明为什么会这样，结果表明遍历性在回答这些问题中起着中心作用。

常见的教科书智慧证明了使用相平均的合理性。正如我们所见，吉布斯形式主义将物理量与系统相空间上的函数相关联。进行测量其中一个量的实验需要时间，并且假设测量设备记录的不是所讨论函数的瞬时值，而是在测量持续时间内的时间平均值。因此，时间平均是经验可及的。然后，论证继续说，尽管按照人类标准来看，测量需要的时间很短，但与典型分子过程发生的微观时间尺度相比，这段时间很长。因此，人们假设测得的有限时间平均值大致等于所测函数的无限时间平均值。如果我们现在假设系统是遍历的，那么时间平均等于相平均。后者可以很容易地从形式主义中获得。因此，我们找到了所寻求的联系：吉布斯形式主义提供了相平均，由于遍历性，这些相平均等于无限时间平均值，而这些值，大致上等于从测量中获得的有限时间平均值。

这个论点至少有两个问题。首先，从测量需要一定时间这一事实并不能得出实际测量的是时间平均值这一结论。例如，可能情况是测量设备提供给我们的值只是在测量的最后时刻所假定的值，而不管之前的值是什么（例如，它只是最后一个指针读数）。因此，我们需要一个论证来得出结论，即测量确实产生时间平均值。其次，即使我们认为测量确实产生有限时间平均值，将这些平均值等同于无限时间平均值也存在问题。即使测量持续时间在实验标准下很长（这未必是情况），有限时间平均值和无限时间平均值可能会得出非常不同的值。这并不是说它们一定不同；它们可能是相同的。但它们是否相同是一个经验问题，取决于所研究系统的具体情况。因此，在用无限时间平均值替换有限时间平均值时需要谨慎，不能在没有进一步论证的情况下将它们等同起来。

Malament 和 Zabell（1980）通过建议一种解释均衡理论成功的方式来回应这一挑战，该方式仍然涉及遍历性，但避免了对时间平均值的依赖。这解决了上述问题，但面临一个困难，即许多通过 SM 形式主义成功处理的系统并非遍历的。为了避免这一困难，Vranas（1998）建议用他所称的 ε-遍历性取代遍历性。直观地说，如果一个系统在整个相空间上不是遍历的，而是在其中的一个非常大的部分上是遍历的（那些不是遍历的部分的测度为 ε，其中 ε 非常小），那么这个系统就是 ε-遍历的。他的方法背后的主要思想是挑战一个普遍认为的信念，即即使一个系统只是‘稍微’不遍历，那么它的行为就完全是‘非遍历’的。Vranas 指出存在一个中间地带，然后论证这个中间地带实际上为我们提供了一切所需。这是一个有前途的提议，但它面临三个挑战。首先，需要证明所有相关系统确实都是 ε-遍历性的。其次，到目前为止，这个论点只针对微正则系综进行了发展，但人们想知道它是否以及如何适用于正则系综和巨正则系综。第三，它仍然基于一个假设，即均衡由一个稳态分布来表征，正如我们将在下文看到的，这是在制定可行的吉布斯非平衡理论时的一个障碍。

第二次回应从 Khinchin 的工作开始。Khinchin（1949）指出，遍历程序的问题在于它专注于过于一般化的系统类别。与其研究一般水平上的动力系统，我们应该专注于在统计力学中相关的情况。这涉及两个限制。首先，我们只需要考虑具有大量自由度的系统；其次，我们只需要考虑一类特殊的相函数，即所谓的“和函数”。这些函数是单粒子函数的总和，即只考虑一个粒子的位置和动量的函数。在这些假设下，Khinchin 证明随着 n 变大，能量超曲面上时间和空间均值相差超过一小量的区域的测度趋于零。粗略地说，这个结果表明对于大的 n，系统在所有实际目的上的行为就好像是遍历的一样。

这个结果的问题在于它仅适用于求和函数，特别是仅当系统的能量函数本身是一个求和函数时才有效，而当粒子相互作用时并非如此。因此，问题是如何将这个结果推广到更现实的情况。这个问题是一个研究项目的起点，现在被称为热力学极限，由兰福德、马祖尔、鲁埃尔和范德林登等人倡导（参见范利斯（2001）进行调查）。其主要问题是在能量函数中是否仍然可以证明“赫钦类似”的结果，其中包含相互作用项。这种结果可以在 n→∞ 的极限情况下证明，如果系统的体积 V 也朝着无穷大的方向增长，使得数密度 n/V 保持恒定。

到目前为止，我们只处理了平衡，一旦转向非平衡，情况就变得更糟了。主要问题在于，根据形式主义，吉布斯熵是一个常数的结果！这导致了无法通过增加吉布斯熵来表征接近平衡的方法，而这正是我们期望的，如果我们将吉布斯熵视为热力学熵的 SM 对应物。解决这个问题的标准方法是对相空间进行粗粒化，然后定义所谓的粗粒化吉布斯熵。简而言之，对相空间进行粗粒化相当于在相空间上放置一个网格，并声明网格中一个单元格内的所有点是无法区分的。这个过程将连续的相空间转变为离散的单元格集合，系统的状态由指定系统状态所在的单元格来确定。如果我们在这个网格上定义吉布斯熵，纯粹出于数学原因，熵不再是一个常数，实际上可以增加或减少。如果进一步假设系统是混合的，根据遍历理论的所谓收敛定理，粗粒化吉布斯熵会趋近于最大值。然而，这个解决方案充满争议，两个主要争议点是粗粒化的正当性和系统混合的假设。

总的来说，遍历性在许多试图证明 SM 的假设的努力中起着核心作用。即使在遍历性的简单应用最终失败的情况下，稍作修改的概念在问题分析和寻找更好解决方案方面证明是富有成效的。

遍历层次与随机性

EH 经常被呈现为确定性系统中随机程度逐渐增加的层次结构：系统在这个层次结构中的位置越高，其行为就越随机。[20] 然而，EH 不同层次的定义并未明确涉及随机性；EH 通常的呈现方式也没有具体说明应该作为层次结构基础的随机性概念。因此，关于 EH 基于何种随机性概念以及 EH 究竟以何种方式是随机行为的层次结构存在疑问。

Berkovitz, Frigg 和 Kronz (2006)讨论了这个问题，并认为如果将随机性解释为不可预测性，那么 EH 最好被理解为随机行为的层次结构，其中不可预测性是以概率相关性的形式加以解释的，而概率相关性则是根据系统在不同时间点的状态之间的相关性衰减的不同模式来详细说明的。让我们逐一介绍这些要素。

系统的属性可以与相空间的不同部分相关联。例如，在球的例子中，具有正动量的属性与相空间的右半部分相关联；也就是说，它与集合 {x∈X∣p>0} 相关联。概括这个想法，我们说对于系统相空间的每个子集 A，都对应一个属性 PA，因此系统在时间 t 拥有该属性当且仅当系统的状态 x 在 t 时在 A 中。子集 A 可以是任意的，与 A 相对应的属性可能并不直观，不像例如具有正动量的属性那样。但在接下来的分析中，没有任何内容取决于属性是否“直观”。然后我们定义事件 At 为在时间 t 获得 PA。

在每个时间 t，是否 PA 获得是一个事实，这取决于系统的动态。然而，我们可能不知道是否是这种情况。因此，我们引入表达我们对 PA 是否获得的不确定性的认识概率：p(At)反映了一个代理人在时间 t 对 PA 获得的信念程度。同样，我们可以引入条件概率：p(At∣Bt1)是我们对系统在 t 时具有 PA 的信念程度，假设它在较早的时间 t1 时具有 PB，其中 B 也是系统相空间的一个子集。根据条件概率的通常规则，我们有 p(At∣Bt1)=p(At&Bt1)/(p(Bt1)。这当然可以推广到多个事件：p(At∣Bt11&…&Btrr)是我们对系统在 t 时具有 PA 的信念程度，假设它在 t1 时具有 PB1，在 t2 时具有 PB2，...，在 tr 时具有 PBr，其中 B1,…,Br 是系统相空间的子集（r 是一个自然数），t1,…,tr 是连续的时间瞬间（即 t>t1>…>tr）。

直觉上，过去的事件与我们的预测相关，如果考虑过去的事件会对我们的预测产生影响，或者更具体地说，如果它降低或提高了未来事件的概率。换句话说，p(At∣Bt11)−p(At)是 Bt1 对预测 At 的相关性的度量：如果 p(At∣Bt11)−p(At)>0，则 Bt1 是积极相关的；如果 p(At∣Bt11)−p(At)<0，则 Bt1 是消极相关的；如果 p(At∣Bt11)−p(At)=0，则 Bt1 是不相关的。出于技术原因，事实证明使用一个略有不同但等效的相关性概念更容易处理，该概念是通过将方程的两边都乘以 p(Bt1)得到的。因此，我们采用以下定义。对于 At，Bt1 的相关性是直觉上，过去的事件与我们的预测相关，如果考虑过去的事件会对我们的预测产生影响，或者更具体地说，如果它降低或提高了未来事件的概率。换句话说，p(At∣Bt11)−p(At)是 Bt1 对预测 At 的相关性的度量：如果 p(At∣Bt11)−p(At)> 0，则 Bt1 是积极相关的；如果 p(At∣Bt11)−p(At)<0，则 Bt1 是消极相关的；如果 p(At∣Bt11)−p(At)=0，则 Bt1 是不相关的。出于技术原因，事实证明使用一个略有不同但等效的相关性概念更容易处理，该概念是通过将方程的两边都乘以 p(Bt1)得到的。因此，我们采用以下定义。对于 At，Bt1 的相关性是

(R)R(Bt1,At)=p(At&Bt1)−p(At)p(Bt1).

这个定义推广到有多个集合 B 的情况（如上所述）是直接的。

相关性有助于阐明不可预测性。直观地，对于 At 来说，过去事件与之相关性越低，系统的可预测性就越低。这个基本思想可以通过各种方式加以细化。首先，我们获得的不可预测性类型取决于应用(R)的事件类型。例如，如果 At 的概率不仅独立于 Bt1 或其他“孤立”的过去事件，而是独立于整个过去，那么 At 的不可预测性程度会增加。其次，如果事件 At 对过去事件 Bt1 的概率依赖随着事件之间的时间距离增加而迅速减少，那么事件 At 的不可预测性会增加。第三，事件 At 的概率可能完全独立于过去事件，或者仅在平均情况下独立于这些事件。这些思想构成了将 EH 分析为一种不可预测性层次的基础。

在我们能够提供这样的分析之前，还需要两个进一步的步骤。首先，如果要将概率用于理解动力系统中的随机性，概率分配必须反映系统的特性。因此，我们必须将上述概率与系统的特征相连接。自然的选择是系统的测度 μ。[21] 因此，我们假设事件 At 的概率等于集合 A 的测度：p(At)=μ(A) 对于所有的 t。这可以推广到联合概率如下：

(P)p(At&Bt1)=μ(A∩Tt1→tB),

对于所有时间点 t>t1 和系统相空间的所有子集 A 和 B。 Tt1→tB 是系统从 t1 到 t 的动力学下集合 B 的映像。我们将这个假设称为概率假设（P），如图 8 所示。再次，这个条件自然地推广到 At 与多个事件 Bti 的联合概率情况。假设（P）及其推广，（R）反映了系统的动力学特性。

图 8：条件（P）。

在简要介绍分析的下一个要素之前，让我们提到一个关于概率与系统度量相关性是否合理的问题。乍看之下，相空间上的度量可以有纯粹的几何解释，并不一定与不确定性的量化有任何关系。例如，我们可以使用度量来确定一张桌子的长度，但这种度量不一定与不确定性有关。这种关联是否合法取决于具体情况和度量的解释。然而，在统计物理学中感兴趣的系统中，假设系统状态的概率在相空间 X 的特定子集中的比例与 A 的度量成正比是自然且标准的。

最后要介绍的是系统相空间中两个子集 A 和 B 之间的相关性概念，其定义如下：

(C)C(A,B)=μ(A∩B)−μ(A)μ(B).

如果 C(A,B) 的值为正（负），则 A 和 B 之间存在正（负）相关性；如果为零，则 A 和 B 不相关。由上可立即得到以下结论：

(RC)R(Bt1,At)=C(Tt1→tB,A).

(RC)构成了将 EH 解释为客观随机性层次的基础。鉴于这个方程，事件 Bt1 对事件 At 的主观概率相关性反映了系统的客观动力学特性，因为对于不同的转换 T，R(Bt1,At)将指示 Bt1 对 At 的不同种类的概率相关性。

将（RC）应用起来，重要的是要注意到，定义 EH 上述各级的方程可以用相关性来表示。考虑到我们正在处理离散系统（因此我们有 Tt1→tB=TkB，其中 k 是从 t1 到 t 经过的时间步数），这些方程如下：

遍历性定义为 lim→∞1n∑k=0C(TkB,A)=0，对于所有的 A，B⊆X

弱混合 limn→∞1nn−1∑k=0|C(TkB,A)|=0，对于所有 A，B⊆X

强混合极限→∞C(TnB,A)=0，对于所有 A，B⊆X

K-Mixinglimn→∞supB∈σ(n,r)|C(B,A)|=0, for all A,A1,…,Ar⊆X

BernoulliC(TnB,A)=0, 对于 Bernoulli 分割的所有 B,A。

将（RC）应用于这些表达式，我们可以阐明每个不同层次的 EH 涉及的不可预测性的本质。

在 EH 的顶部开始。在伯努利系统中，当前状态的概率完全独立于过去发生的任何事情，即使过去只是一次时间步长。因此，了解系统的过去并不会提高我们的预测能力；过去对预测未来毫无意义。这个事实经常被总结为伯努利系统像抛硬币一样随机。然而，我们应该强调，这仅适用于伯努利分区中的事件；伯努利系统的特征对于伯努利分区以外的其他分区的随机特性是沉默的。

K-mixing is more difficult to analyse. We now have to tackle the question of how to understand σ(n,r), the minimal σ-algebra generated by the setK-混合更难分析。我们现在必须解决如何理解 σ(n,r)，即由集合生成的最小 σ 代数。

{TkAj∣k≥n; j=1,…,r}

我们之前回避的问题。对于我们的分析而言，重要的是以下类型的集合是遍历层次的成员。

σ(n,r)：TkAj0∩Tk+1Aj1∩Tk+2Aj2∩…

指标 ji 的范围为 1,…,r。由于我们可以自由选择集合 A0, A1,…, Ar，因此我们总是可以选择它们，使它们成为系统的过去历史：系统在 Aj0 k 个时间步骤之前处于状态，在 Aj1 k+1 个时间步骤之前处于状态，依此类推。将其称为系统的（粗粒度）远古过去—‘远古’因为我们只考虑超过 k 个时间步骤的状态。K-混合条件则表明，随着时间趋于无穷大，系统的整个远古历史变得无关紧要于预测未来会发生什么。通常，伯努利系统与 K-系统进行比较时，会聚焦于伯努利分区中的事件。就该分区而言，K 弱于伯努利。差异在于极限和远古历史。在伯努利系统中，未来与整个过去无关（不仅仅是远古过去），而且这一点在不取极限的情况下也成立（在 K-混合独立性的情况下，只有在极限情况下才成立）。然而，这仅适用于伯努利分区；对于其他分区，这一点可能成立也可能不成立—伯努利系统的定义并未涉及这种情况。[ 22]

强混合的解释现在变得直截了当。它表明对于任意两个集合 A 和 B，如果 B 在过去的 k 个时间步中存在，那么当时间趋向无穷大时（即当 n 趋向无穷大时），B 对于未来某个时刻 A 存在的概率变得无关紧要。换句话说，过去事件 B 对于 A 的概率变得越来越无关紧要，随着 A 和 B 之间的时间距离变得更大。这个条件比 K-混合要弱，因为它仅说明未来与远处过去的孤立事件是独立的，而 K-混合则意味着未来与整个远处过去历史是独立的。

在弱混合系统中，过去可能与预测未来相关，甚至是在遥远的过去。弱混合条件仅仅表示这种影响必须足够弱，以至于未来事件与过去事件之间的相关性的绝对值平均消失；但这并不意味着所有个体相关性都会消失。因此，在弱混合系统中，过去的事件仍然可能与未来相关。

遍历性最终意味着没有任何相关性的衰减。遍历性条件仅仅表示所有过去事件与未来事件之间的相关性（这次没有绝对值）的平均值为零。但这与过去的每一时刻与未来之间存在强相关性是兼容的，只要正相关和负相关平均值相抵消。因此，在遍历系统中，过去并不变得无关紧要。因此，遍历系统根本不是随机的（在上面介绍的随机的意义上）。

遍历层次

这些见解对理解实际系统的行为有多大相关性？一个经常听到的反对意见（我们在第 4 节中已经遇到过）是，EH 和更一般地说遍历理论是无关紧要的，因为大多数系统（包括我们最终感兴趣的那些系统）根本不是遍历的。[23]

这一指控并非一开始看起来那么严重。首先，重要的是强调的是，重要的不是应用的数量，而是是否存在一些重要的遍历系统。而且有一些这样的系统的例子。例如，所谓的“硬球系统”（以及它们的一些更复杂的变体）是气体分子动力学的有效理想化，这些系统似乎是遍历的；有关详细信息，请参见 Berkovitz，Frigg 和 Kronz 2006 年，第 3.2 节，Vranas（1998）和 Frigg 和 Werndl（2011）。

此外，EH 可用于表征遍历和非遍历系统中的随机性和混沌性。即使整个系统不是遍历的（即，如果它与整个相空间 X 不遍历），仍然可以存在（通常也会存在） X 的子集，在这些子集上系统是遍历的。这就是利希滕贝格和利伯曼（1992 年，第 295 页）所指的，当他们观察到“[在某种意义上，遍历性是普遍的，中心问题是定义它存在的子空间”。事实上，非遍历系统可能有一些子集不仅是遍历的，甚至是伯努利的！因此，有趣的问题是询问这些子集是什么，它们的度量是多少，以及它们具有什么拓扑特征。这些是动力系统理论的一部分所研究的问题，尤其是 KAM 理论。因此，KAM 理论并没有证明遍历理论在分析真实物理系统的动力行为方面是无用的（通常被声称）。事实上，KAM 系统有区域，其中系统表现出纯粹遍历或伯努利行为，因此 EH 对于表征这类系统的动力学特性是有用的（Berkovitz、Frigg 和 Kronz 2006 年，第 4 节）。此外，正如我们在第 4.1 节中提到的，几乎所有哈密顿系统都是不可积的，因此它们在相空间中有大片区域的运动类似于遍历。因此，即使系统在遍历上失败，EH 也是研究系统的动力学特性的有用工具。

另一个经常听到的反对意见是，EH 在实践中是无关紧要的，因为 EH 的大多数层次（事实上，除了伯努利之外）都是根据无限时间极限来定义的，因此对于有限时间内发生的情况保持沉默。但我们观察到的都是有限时间，因此 EH 与实际科学家实践的物理学无关。

这一观点可以通过更仔细地审视极限的定义来消除，这显示了无穷极限实际上对系统在有限时间内的动态行为具有重要影响。极限的定义如下（其中 f 是时间的任意函数）：limt→∞f(t)=c，当且仅当对于每个 ε>0，存在一个 t′>0，使得对于所有 t>t′，我们有|f(t)−c|<ε。换句话说，对于每个数 ε，无论多么小，都存在一个有限时间 t′，在此之后 f 的值与 c 之间的差异小于 ε。也就是说，一旦过了 t′，f 的值永远不会比 c 远超过 ε。考虑到这一点，例如，强混合表示对于给定的阈值 ε，在当前时间之后的 n 个时间单位后存在一个有限时间 tn，使得 C(TnB,A)始终小于 ε。我们可以自由选择 ε 作为一个经验相关的边界，因此我们知道，如果一个系统是混合的，我们应该期望在 tn 之后系统状态之间的相关性低于 ε。总之，在强混合系统中，过去某个时间处于状态 B 对于其当前处于状态 A 的概率变得越来越不相关，因为 A 和 B 之间的时间距离变大。因此，系统是强混合的这一事实显然对其在有限时间内的动态行为具有影响。此外，通常（尽管并非总是如此），收敛证明提供了收敛速度的有效界限，这些界限可用于指导对于特定时间行为的期望。

由于不同层次的 EH 对应于不同程度的随机性，每个都以不同类型的渐近相关衰减来阐明系统在不同时间的状态之间的相关性，人们可能会怀疑在衰减速率中是否存在类似的模式。也就是说，人们可能会倾向于认为 EH 同样可以被表征为相关性衰减速率增加的层次结构：例如，一个展现出轨迹指数发散的 K 系统将以指数速率的相关性衰减为特征，而一个 SM 系统将展现出多项式衰减速率。

这是不幸的，这并不奏效。尽管看起来很自然，但遍历层次不能被解释为相关性衰减速率递增的层次。数学事实是，没有特定的衰减速率与每个遍历层次相关联。例如，人们可以构建出衰减速率任意缓慢的 K-系统。因此，衰减速率是特定系统的特征，而不是遍历层次的特征。

遍历层次与混沌

如何描述混沌的问题自混沌理论诞生以来一直备受争议；有关调查请参阅 Smith（1998，第 10 章）。一种重要的方法家族使用 EH 来定义混沌。Belot 和 Earman（1997，155）指出，强混合是混沌系统的必要条件，而 K-系统是混沌系统的充分条件。认为 K-系统是混沌的标志，任何较低程度的随机性都不是混沌的观点通常受到两种思想的推动。第一种思想是，混沌行为涉及动力学不稳定性，表现为附近轨迹的指数发散。因此，由于系统仅在是 K-系统时才涉及附近轨迹的指数发散，因此得出结论，（仅仅）遍历和混合系统不是混沌系统，而 K-和 B-系统是。然而值得注意的是，SM 与附近轨迹的多项式发散是兼容的，有时在短期内这种发散超过指数发散。因此，如果混沌与附近轨迹的发散速率密切相关，似乎没有理由否认 SM 系统表现出混沌行为。

第二种认为成为 K 系统的标志混沌的观点的常见动机是，从零到正 KS 熵的转变标志着从“规则”到“混沌”行为的转变。这可能表明，具有正 KS 熵既是混沌行为的必要条件，也是充分条件。因此，由于 K 系统具有正 KS 熵，而 SM 系统没有，因此得出结论，K 系统是混沌的，而 SM 系统不是。为什么 KS 熵是混沌的标志？有三种动机，对应于 KS 熵的三种不同解释。首先，KS 熵可以被解释为意味着在具有附近轨迹发散的意义上具有动力学不稳定性（见 Lichtenberg＆Liebermann，1992 年，第 304 页）。其次，KS 熵可能与算法复杂性相关（Brudno 1978）。然而，虽然这种复杂性有时被提及为混沌的指标，但更难将其与关于混沌的物理直觉联系起来。第三，KS 熵可以被解释为 Shannon 信息论熵的广义版本（见 Frigg 2004）。根据这种方法，正 KS 熵意味着一定程度的不可预测性，这种不可预测性足够高，值得被称为混沌。[24]

Werndl (2009b)认为，仔细审查通常被视为混沌的所有系统的论点表明，强混合是关键标准：一个系统只有在它是强混合的情况下才是混沌的。正如她所指出的那样，这一说法需要限定：系统很少在整个相空间上混合，但它们也不在整个相空间上混沌。关键之举是将注意力限制在系统混沌的相空间区域，然后发现在这些相同区域中，系统也是强混合的。因此，Werndl 得出结论，强混合是混沌的标志。令人惊讶的是，这也适用于耗散系统（即不保度的系统）。这些系统具有吸引子，并且它们在吸引子上是混沌的，而不是在整个相空间上。关键点在于，可以在吸引子上定义一个不变（保度）度量，并展示系统相对于该度量是强混合的。因此，强混合可以定义保守和耗散系统中的混沌。

对混沌的必要和充分条件的探索假定混沌系统与非混沌系统之间有明确的界限。遍历层次可能挑战这一观点，因为每一次试图在某处划定混沌系统与非混沌系统之间的界线都很可能是相当任意的。遍历系统相当规则，混合系统不太规则，而在层次结构中的更高位置表现出更加杂乱的行为。但是否存在一个特定的点，从“非混沌”过渡到混沌发生？根据遍历层次是逐渐增加的随机性程度的层次结构以及随机性程度对应不同的不可预测性程度的论点（见第 5 节），Berkovitz、Frigg 和 Kronz（2006 年，第 5.3 节）提出，混沌很可能被视为程度问题，而不是全有或全无的事务。伯努利系统非常混沌，K-系统略微不太混沌，SM-系统仍然不太混沌，而遍历系统则是非混沌的。这一建议与混沌与不可预测性密切相关的观念很好地联系在一起。

遍历层次也被用来理解量子混沌。Castagnino 和 Lombardi（2007）分析了量子混沌问题，将其视为量子力学经典极限的一个特例，并确定在经典极限中混合是量子系统必须满足的非可积条件。Gomez 和 Castagnino（2014, 2015）将整个遍历层次概括到量子背景中，并认为因此概括的 EH 是理解量子混沌的有用工具；Fortin 和 Lombardi（2018）使用 EH 来理解退相干；Gomez（2018）讨论了量子混合系统中的 KS 熵。

混合，最后，也被用来理解结构模型误差的影响。Frigg, Bradley, Du and Smith (2014) 认为参数误差和结构模型误差之间的区别至关重要，并且后者对模型的预测能力有着重要且迄今未被重视的影响。Wilson-Mayo (2015) 指出，为了将这一观察结果确立在坚实的基础上，我们需要一个结构混沌的概念。他通过引用拓扑混合来提出这样一个概念。

结论

EH 经常被认为与解释确定性动力系统中随机性的本质相关。然而，这种说法涉及何种随机性概念并不清楚。EH 的正式定义并未明确涉及随机性，并且通常呈现 EH 的方式也没有涉及 EH 所基础的随机性概念的任何具体规定。正如第 5 节所建议的，EH 可以被解释为随机性的层次，如果随机性程度以不可预测性程度来阐明，而不可预测性程度又以（连贯的）条件信念程度来阐明。为了这些信念程度能够表明系统的动力特性，它们必须根据系统的动力定律进行更新。因此，EH 的不同层次，除了仅仅是遍历系统之外，对应于不同种类的不可预测性，这些不可预测性对应于系统过去状态与现在状态之间的相关性衰减的不同模式。仅仅是遍历系统似乎没有显示出随机性，因为它们的过去和现在状态之间的相关性不需要衰减。

遍历理论在统计物理学中扮演着重要角色，EH 或其某种修改形式构成了汉密尔顿系统和耗散系统中随机性的重要度量。有时有人认为 EH 在物理学中基本上是无关紧要的，因为真实的物理系统并非遍历的。但是，这种指责是没有根据的，对非遍历系统的进一步研究揭示了一个相当不同的画面，因为 EH 可以在统计力学基础、随机性分析和混沌理论中得到富有成效的应用。最近，它还在理解自然规律方面发挥了作用（Filomeno 2019，List and Pivato 2019）。

Bibliography

Alekseev, V. M., and Yakobson, M. V., 1981, “Symbolic dynamics and hyperbolic dynamical systems,” Physics Reports, 75: 287–325.
Argyris, J., Faust, G. and Haase, M., 1994, An Exploration of Chaos, Amsterdam: Elsevier.
Albert, D., 2000, Time and Chance, Cambridge, MA and London: Harvard University Press.
Arnold, V. I. and Avez, A., 1968, Ergodic Problems of Classical Mechanics, New York: Wiley.
Badino, M., 2006, “The foundational role of ergodic theory,” Foundations of Science, 11: 323–347.
Batterman, R. W., 1998, “Why equilibrium statistical mechanics works: universality and the renormalization group,” Philosophy of Science, 65: 183–208.
Belanger, C., 2013, “On two mathematical definitions of observational equivalence: Manifest isomorphism and ε-congruence reconsidered,” Studies in History and Philosophy of Modern Physics, 44(2): 69–76.
Belot, G., and Earman, J., 1997, “Chaos out of order: Quantum mechanics, the correspondence principle and chaos,” Studies in the History and Philosophy of Modern Physics, 28: 147–182.
Berkovitz, J., Frigg, R. and Kronz, F., 2006, “The Ergodic Hierarchy, Randomness and Hamiltonian Chaos,” Studies in History and Philosophy of Modern Physics, 37: 661–691.
Birkhoff, G. D., 1931, “Proof of a Recurrence Theorem for Strongly Transitive Systems,” and “Proof of the Ergodic Theorem,” Proceedings of the National Academy of Sciences, 17: 650–660.
Birkhoff, G. D. and Koopman, B. O., 1932, “Recent Contributions to the Ergodic Theory,” Proceedings of the National Academy of Sciences, 18: 279–282.
Boltzmann, L., 1868, “Studien über das Gleichgewicht der lebendigen Kraft zwischen bewegten materiellen Punkten,” Wiener Berichte, 58: 517–560,
–––, 1871, “Über das Wärmegleichgewicht zwischen mehratomigen Gasmolekülen,” Wiener Berichte, 63: 397–418.
–––, 1877, “Über die beziehung zwischen dem zweiten hauptsatze der mechanischen wärmetheorie und der wahrscheinlichkeitsrechnung resp. den sätzen über das wärmegleichgewicht,” Wiener Berichte 76, 373–435; reprinted in F. Hasenöhrl (ed.), Wissenschaftliche Abhandlungen, Leipzig: J. A. Barth 1909, Volume 2, pp. 164–223.
Bricmont, J., 2001, “Bayes, Boltzmann, and Bohm: Probabilities in Physics,” in J. Bricmont et al., Lecture Notes in Physics (Volume 574), Berlin: Springer-Verlag, 2001, pp. 3–21.
Brudno, A. A., 1978, “The complexity of the trajectory of a dynamical system,” Russian Mathematical Surveys, 33: 197–198.
Brush, S. G., 1976, The Kind of Motion We Call Heat, Amsterdam: North Holland Publishing.
Castagnino, M. and Lombardi, O., 2007, “Non-integrability and mixing in quantum systems: on the way to quantum chaos,” Studies in History and Philosophy of Modern Physics, 38: 482–513.
Chibbaro, S., Rondoni, L., and Vulpiani, A., 2014, “On the foundations of statistical mechanics: ergodicity, many degrees of freedom and inference,” Communications in Theoretical Physics, 62(4): 469–75.
Christov, I. C., Lueptow, R. M., and Ottino, J. M., 2011, “Stretching and folding versus cutting and shuffling: An illustrated perspective on mixing and deformations of continua,” American Journal of Physics, 79: 259–367.
Cohen, I. B., 1966, “Newton’s Second Law and the Concept of Force in the Principia,” Texas Quarterly, 10(3): 127–157.
Cornfeld, I. P., Fomin, S. V., and Sinai, Y. G., 1982, Ergodic Theory, Berlin and New York: Springer.
Darrigol, O., 2018, Atoms, Mechanics, and Probability: Ludwig Boltzmann’s Statistico-Mechanical Writings – An Exegesis, Oxford: Oxford University Press.
Degas, R., 1955, A History of Mechanics, Neuchatel: Editions du Griffon; reprinted New York: Dover, 1988.
Descartes, R., 1644, Principles of Philosophy, edited by V. R. Miller and R. P. Miller, Dordrecht: D. Reidel Publishing Co., 1983.
Dijksterhuis, E. J., 1961, The Mechanization of the World Picture, Oxford: Oxford University Press; Princeton: Princeton University Press, 1986.
Eagle, A., 2016, “Probability and randomness,” in A. Hájek and C. Hitchcock (eds.), Oxford Handbook of Probability and Philosophy, Oxford: Oxford University Press, pp. 440–459.
Earman, J., 1986, A Primer on Determinism, Dordrecht: D. Reidel Publishing Company.
––– and Redei, M., 1996, “Why ergodic theory does not explain the success of equilibrium statistical mechanics,” British Journal for the Philosophy of Science, 47: 63–78.
Filomeno, A., 2019, “Stable regularities without governing laws?,” Studies in History and Philosophy of Modern Physics, 66: 186–197.
Fortin, S. and Lombardi, O., 2018, “Understanding decoherence as an irreversible process,” International Journal of Quantum Foundations, 4: 247–267.
Frigg, R., 2004, “In What Sense Is the Kolmogorov-Sinai Entropy a Measure for Chaotic Behaviour?—Bridging the Gap Between Dynamical Systems Theory and Communication Theory,” British Journal for the Philosophy of Science, 55: 411–434.
–––, 2008, “A Field Guide to Recent Work on the Foundations of Statistical Mechanics,” in Dean Rickles (ed.), The Ashgate Companion to Contemporary Philosophy of Physics, London: Ashgate, pp. 99–196.
–––, 2009, “Typicality and the Approach to Equilibrium in Boltzmannian Statistical Mechanics,” Philosophy of Science (Supplement), 76: 997–1008.
–––, 2010, “Probability in Boltzmannian Statistical Mechanics,” in Gerhard Ernst and Andreas Hüttemann (eds.), Time, Chance and Reduction. Philosophical Aspects of Statistical Mechanics, Cambridge: Cambridge University Press, pp. 92–118.
–––, 2016, “Chance and Determinism,” in Alan Hájek and Christopher Hitchcock (eds.), The Oxford Handbook of Probability and Philosophy, Oxford: Oxford University Press, pp. 460–474.
Frigg, R., Bradley, S., Du, H., and Smith, L. A., 2014, “The adventures of Laplace’s demon and his apprentices,” Philosophy of Science, 81(1): 31–59.
Frigg, R. and Hoefer, C., 2013, “The Best Humean System for Statistical Mechanics,” Erkenntnis, 80: 551–574.
Frigg, R. and Werndl, C., 2011, “Explaining the Approach to Equilibrium in Terms of Epsilon-Ergodicity,” in Philosophy of Science, 78: 628–652.
Garber, D., 1992, “Descartes’ Physics,” in The Cambridge Companion to Descartes, John Cottingham (ed.), Cambridge: Cambridge University Press, pp.286–334.
Gibbs, J. W., 1902, Elementary Principles in Statistical Mechanics, Woodbridge: Ox Bow Press, 1981.
Gomez, I. S., 2018, “KS-entropy and logarithmic time scale in quantum mixing systems,” Chaos, Solitons & Fractals, 106: 317–322.
–––, 2015, “A quantum version of spectral decomposition theorem of dynamical systems, quantum chaos hierarchy: ergodic, mixing and exact,” Chaos, Solitons & Fractals, 70: 99–116.
Gomez, I. and Castagnino, M., 2014, “Towards a definition of the quantum ergodic hierarchy: Kolmogorov and Bernoulli systems,” Physica A, 393: 112–31.
Hemmo, M. and Shenker, O., 2012, The road to Maxwell’s demon: conceptual foundations of statistical mechanics, Cambridge: Cambridge University Press.
–––, 2014, “Probability and typicality in deterministic physics,” Erkenntnis, 80: 575–586.
Hoefer, C., 2011, “Physics and the Humean approach to probability,” in C. Beisbart and S. Hartmann (eds.), Probability in Physics, Oxford: Oxford University Press, pp. 321–37.
Hume, D., 1739, A Treatise of Human Nature, L. A. Selby-Bigge (ed.), with notes by P. H. Nidditch, Oxford: Oxford University Press, 1978.
Khinchin, A. I., 1949, Mathematical Foundations of Statistical Mechanics, Mineola, NY: Dover Publications, 1960.
Koopman, B., 1931, “Hamiltonian Systems and Hilbert Space,” Proceedings of the National Academy of Sciences, 17: 315–318.
Lanczos, C., 1970, The Variational Principles of Mechanics, Toronto: University of Toronto Press; New York: Dover Publications, 1986.
Lavis, D., 2005, “Boltzmann and Gibbs: An Attempted reconciliation,” Studies in History and Philosophy of Modern Physics, 36: 245–73.
–––, 2011, “An objectivist account of probabilities in statistical mechanics,” in C. Beisbart and S. Hartmann (eds.), Probability in Physics, Oxford: Oxford University Press, pp. 51–81.
Lichtenberg, A. J., and Liebermann, M. A., 1992, Regular and chaotic dynamics, 2nd edition, Berlin and New York: Springer.
–––, 2019, “Dynamic and stochastic systems as a framework for metaphysics and the philosophy of science,” Synthese, first online 03 September 2019. doi:10.1007/s11229-019-02231-8
Luczak, J., 2016, “On how to approach the approach to equilibrium,” Philosophy of Science, 83: 393–411.
Malament, D. and Zabell, S., 1980, “Why Gibbs Phase Averages work– the Role of Ergodic Theory,” Philosophy of Science, 47: 339–349.
Mañé, R., 1983, Ergodic Theory and Differentiable Dynamics, Berlin and New York: Springer.
Markus, L., and Meyer, K. R., 1974, “Generic Hamiltonian Dynamical Systems are Neither Integrable nor Ergodic,” Memoirs of the American Mathematical Society, Providence, Rhode Island.
Maroney, O., 2008, “The Physical Basis of the Gibbs-von Neumann entropy,” arXiv:quant-ph/0701127v2.
Maudlin, T., 2011, “Three roads to objective probability,” in C. Beisbart and S. Hartmann (eds.), Probability in physics, Oxford: Oxford University Press, pp. 293–319.
Mayo-Wilson, C., 2015, “Structural Chaos,” Philosophy of Science, 82(5): 1236–1247.
Moore, C., 2015, “Ergodic theorem, ergodic theory, and statistical mechanics,” PNAS, 112(7): 1907–11.
Myrvold, W. C., 2011, “Deterministic laws and epistemic chances,” in Y. Ben-Menahem and M. Hemmo (eds.), Probability in Physics, Berlin: Springer, pp. 73–85.
–––, 2016, “Probabilities in statistical mechanics,” in C. Hitchcock and A. Hájek (eds.), The Oxford Handbook of Probability and Philosophy, Oxford: Oxford University Press, pp. 573–600.
Newton, I., 1687, Mathematical Principles of Natural Philosophy, edited by A. Motte and revised by F. Cajori, Berkeley: University of California Press, 1934.
Ornstein, D. S., 1974, Ergodic theory, randomness, and dynamical systems, New Haven: Yale University Press.
Ott, E., 1993, Chaos in dynamical systems, Cambridge: Cambridge University Press.
Petersen, K., 1983, Ergodic theory, Cambridge: Cambridge University Press.
Shenker, O., 2017, “Foundation of statistical mechanics: the auxiliary hypotheses,” Philosophy Compass, 12(12): e12464.
Shields, P., 1973, The theory of Bernoulli shifts, Chicago: Chicago University Press.
Simanyi, N., 2004, “Proof of the Ergodic Hypothesis for Typical Hard Ball Systems,” Ann. Henri Poincare, 5: 203–233.
Sklar, L., 1993, Physics and Chance: Philosophical Issues in the Foundation of Statistical Mechanics, Cambridge: Cambridge University Press.
Smith, P., 1998, Explaining Chaos, Cambridge: Cambridge University Press.
Strevens, M., 2011, “Probability out of Determinism,” in C. Beisbart and S. Hartmann (eds.), Probability in Physics, Oxford: Oxford University Press, pp. 339–64.
Stroud, B., 1977, Hume, London: Routledge and Kegan Paul.
Tabor, M., 1989, Chaos and integrability in nonlinear dynamics: An Introduction, New York: Wiley.
Tolman, R. C., 1938, The Principles of Statistical Mechanics, Mineola, NY: Dover, 1979.
Torertti, R., 1999, The Philosophy of Physics, Cambridge: Cambridge University Press.
Uffink, J., 2007, “Compendium of the foundations of classical statistical physics,” in J. Butterfield and J. Earman (eds.), Philosophy of Physics, Amsterdam: North Holland, pp. 923–1047.
Van Lith, J., 2001, “Ergodic theory, interpretations of probability and the foundations of statistical mechanics,” Studies in History and Philosophy of Modern Physics, 32: 581–94.
Von Neumann, J., 1932, “Proof of the Quasi-Ergodic Hypothesis,” Proceedings of the National Academy of Sciences, 18: 70–82.
Von Plato, J., 1992, “Boltzmann’s Ergodic Hypothesis,” Archive for the History of exact Sciences, 44: 71–89
–––, 1994, Creating Modern Probability, Cambridge: Cambridge University Press.
Vranas, P., 1998, “Epsilon-ergodicity and the success of equilibrium statistical mechanics,” Philosophy of Science, 68: 688–708.
Werndl, C., 2009a, “Justifying Definitions in Mathematics–Going Beyond Lakatos,” Philosophia Mathematica, 17: 313–340.
–––, 2009b, “What Are the New Implications of Chaos for Unpredictability?,” British Journal for the Philosophy of Science, 60(1): 195–220.
–––, 2009c, “Are deterministic descriptions and indeterministic descriptions observationally equivalent?,” Studies in History and Philosophy of Modern Physics, 40: 232–42.
Werndl, C. and Frigg, R., 2015a, “Reconceptualising Equilibrium in Boltzmannian Statistical Mechanics and Characterising its Existence,” Studies in History and Philosophy of Modern Physics, 49: 19–31.
–––, 2015b, “Rethinking Boltzmannian Equilibrium,” forthcoming in Philosophy of Science.
Wüthrich, C., 2011, “Can the world be shown to be indeterministic after all?,” in C. Beisbart and S. Hartmann (eds.), Probability in Physics, Oxford: Oxford University Press, pp. 365–89.