信息 information (Pieter Adriaans)

首次发布于 2012 年 10 月 26 日星期五;实质性修订于 2023 年 11 月 1 日星期三

信息哲学从历史和系统的角度对信息概念进行了哲学分析。随着早期现代哲学中经验主义知识理论的出现,20 世纪各种数学信息理论的发展以及信息技术的兴起,“信息”概念在科学和社会中占据了核心地位。这种兴趣也导致了哲学的一个独立分支的出现,该分支分析了信息的各种形式(Adriaans&van Benthem 2008a,b; Lenski 2010; Floridi 2002, 2011, 2019)。信息已经成为科学和人文学科中的一个核心范畴,对信息的反思影响着从逻辑学(Dretske 1981; van Benthem&van Rooij 2003; van Benthem 2006,参见逻辑和信息条目)到认识论(Simondon 1989)再到伦理学(Floridi 1999)和美学(Schmidhuber 1997a; Adriaans 2008)再到本体论(Zuse 1969; Wheeler 1990; Schmidhuber 1997b; Wolfram 2002; Hutter 2010)等广泛的哲学学科。

信息哲学是哲学的一个子学科,与逻辑和数学哲学密切相关。语义信息哲学(Floridi 2011,D'Alfonso 2012,Adams&de Moraes,2016)又是信息哲学的一个子学科(参见语义信息概念条目中的信息图)。从这个角度来看,信息哲学对主题的研究感兴趣,最一般的层面:数据,良好形成的数据,环境数据等。语义信息哲学增加了意义和真实性的维度(Long 2014),Lundgren(2019)。可以将信息的定量理论解释为语义信息哲学的框架内(详见第 6.5 节进行深入讨论)。

几位作者提出了一个或多或少连贯的信息哲学,试图从新的角度重新思考哲学:例如,量子物理学(Mugur-Schächter 2002),逻辑学(Brenner 2008),通信和信息系统(Capurro&Holgate 2011)以及元哲学(Wu 2010, 2016)。Luciano Floridi 关于语义信息的研究(Floridi 2011, 2013, 2014, 2019; D’Alfonso 2012; Adams&de Moraes 2016,参见有关语义信息概念的条目)值得特别提及。在一系列论文和书籍中,Floridi 发展了一种系统的连贯的超验信息哲学,将他定义为大陆传统中罕见的现代系统构建者之一。他的项目的基石是将真实性纳入信息的定义中。这个选择作为一个划界标准:更多技术性的信息和计算的定量概念不涉及真实性,因此不属于语义信息哲学的核心。由此产生的信息概念也更接近我们在日常生活中使用的天真观念。与此相反,Adriaans&van Benthem 2008a,b 的方法是信息是信息所做的事情,他们对这个主题采取了更加实用主义、不太本质主义的方法。分析信息和计算理论中技术发展的哲学后果是他们研究计划的核心。从这个角度来看,信息哲学作为一门技术学科在哲学历史中具有深厚的根基,并对方法论、认识论和伦理学等各个学科产生影响。人们可以将根植于逻辑研究传统(Van Benthem)或复杂性理论(Vitanyi)的信息思维学派与 Bostrom 和 Floridi 等研究者代表的另一种方法区分开来。

无论对信息哲学的本质有何种解释,它似乎都意味着一个雄心勃勃的研究计划,包括许多子项目,从在现代信息理论背景下重新解释哲学史,到对信息在科学、人文学科和整个社会中的作用进行深入分析。


1. 信息的概念

1.1 口语中的信息

在口语中,“信息”一词目前主要用作抽象的质量名词,用于表示存储、发送、接收或操作在任何媒介中的任何数量的数据、代码或文本。术语“信息”的不精确性和普遍适用性是相辅相成的。在我们的社会中,我们通过越来越复杂的仪器和设备(望远镜、环形加速器)探索现实,并通过更先进的媒体(报纸、广播、电视、短信、互联网)进行交流,因此拥有一个抽象的质量名词来描述这些仪器创造的“东西”并通过这些媒体“流动”是很有用的。从历史上看,这个普遍意义的出现相对较晚,似乎与大众媒体和情报机构的兴起有关(Devlin&Rosenberg 2008; Adriaans&van Benthem 2008b)。

在现今的口语中,“信息”一词以各种松散定义的方式使用,而且经常甚至存在冲突。例如,大多数人会认为以下推理在表面上是有效的:

如果我得到了关于 p 的信息,那么我就知道 p。

相同的人可能对“情报机构有时会散布虚假信息”的说法或者“事故目击者提供的信息模糊且矛盾”的句子没有任何问题。第一个说法意味着信息必然是真实的,而其他说法则允许信息可能是虚假、矛盾和模糊的。在日常交流中,这些不一致似乎并不会造成很大的麻烦,通常从语用背景中可以清楚地确定信息的类型。这些例子足以说明,作为英语使用者,我们的直觉对于信息的严格哲学理论的发展几乎没有帮助。在日常交流中似乎没有实用的压力来收敛到对信息概念更精确的定义。

1.2 技术定义的信息概念

在二十世纪,提出了各种关于信息概念形式化的建议。这些提议的概念围绕着两个核心属性:

信息是广泛的。中心是可加性的概念:具有相同信息量的两个独立数据集的组合包含的信息量是单独的个体数据集的两倍。取对数的数学运算完全捕捉了这种广泛性的概念,因为它将乘法简化为加法:loga×b=loga+logb。

当我们计数和测量物体和结构时,广泛性的概念在我们与周围世界的互动中自然而然地出现。更抽象的数学实体(如集合、多重集和序列)的基本概念是根据符号操作的结构规则(Schmandt-Besserat 1992)在历史早期发展起来的。广泛性的数学形式化是在 19 世纪和 20 世纪初的热力学研究背景下进行的。物理学中定义的不同熵的概念在各种关于信息概念的提议中得到了反映。我们提到了玻尔兹曼熵(Boltzmann, 1866),它与哈特利函数(Hartley 1928)密切相关,吉布斯熵(Gibbs 1906)在形式上等同于香农熵,以及各种推广,如 Tsallis 熵(Tsallis 1988)和 Rényi 熵(Rényi 1961)。当用更高级的多维数系统(复数、四元数、八元数)编码时,广泛性的概念推广为更微妙的可加性概念,这些概念不符合我们日常的直觉。然而,它们在基于量子物理的信息理论的最新发展中发挥着重要作用(Von Neumann 1932;Redei & Stöltzner 2001,参见关于量子纠缠和信息的条目)。

信息减少了不确定性。我们获得的信息量与它减少我们的不确定性的程度成线性增长,直到我们接收到所有可能的信息,不确定性为零为止。不确定性和信息之间的关系可能最早由经验主义者(洛克 1689 年;休谟 1748 年)首次提出。休谟明确观察到,从更大的选择可能性中进行选择会提供更多的信息。这一观察在哈特利(1928 年)提出的函数中得到了其经典的数学形式,该函数定义了我们从有限集合中选择一个元素时获得的信息量。关于广泛性和概率的这两种直觉的唯一数学函数是用概率的负对数来定义信息的函数:I(A)=−logP(A)(香农 1948 年;香农和韦弗 1949 年,雷尼 1961 年)。

我们对一些相关定义进行简明概述:

  • 信息的定量理论

    1. Nyquist 的函数:Nyquist(1924)可能是第一个用对数函数来表达在电报系统的某一线速度下可以传输的“智能”量的人:W=klogm,其中 W 是传输速度,K 是一个常数,m 是可以选择的不同电压级别。Nyquist 使用智能一词来衡量他的方法,说明了 20 世纪初术语的流动性。

    2. Fisher 信息:可观测随机变量 X 对于未知参数 θ 所携带的信息量,该参数 θ 决定了 X 的概率(Fisher 1925)。

    3. Hartley 函数:(Hartley 1928,Rényi 1961,Vigo 2012)。当我们从一个有限集合 S 中以均匀分布选择一个元素 e 时,我们获得的信息量是该集合的基数的对数:I(e∣S)=loga|S|。

    4. Shannon 信息:离散随机变量 X 的熵 H 是与 X 的值相关的不确定性量度:I(A)=−logP(A)(Shannon 1948; Shannon & Weaver 1949)。Shannon 信息是最为人所知的信息的定量定义,但它是一个相对弱的概念,无法捕捉到熵的热力学概念中直观上所必需的无序概念:字符串 0000011111 和字符串 1001011100 包含的 Shannon 信息量是相同的,因为它们具有相同数量的 1 和 0。

    5. 算法复杂性(也称为科尔莫戈洛夫复杂性):二进制字符串 x 中的信息是在参考通用图灵机 U(Turing 1937;Solomonoff 1960, 1964a,b, 1997;1965;Chaitin 1969, 1987)上产生 x 的最短程序 p 的长度。算法复杂性在概念上比香农信息更强大:它确实认识到字符串 1100100100001111110110101010001000100001 包含很少的信息(因为它给出了 π 的前 40 位),而香农的理论会认为这个字符串几乎具有最大的信息量。这种强大是有代价的。科尔莫戈洛夫复杂性量化了所有比数据集短的可能计算机程序。由于我们无法在有限时间内运行所有这些程序,因为其中很多程序将永远不会终止。这意味着科尔莫戈洛夫复杂性是不可计算的。我们所做的测量都依赖于我们选择的参考通用图灵机。算法复杂性作为信息度量的性质由图灵机的普适性作为计算模型和所谓的不变性定理保证:在极限情况下,两个不同的通用图灵机对数据集分配的复杂性只有一个常数的差异。因此,算法复杂性是一种渐近度量,对于小的有限数据集并没有太多的信息。它在日常研究中的实际价值有限,尽管从哲学的角度和作为数学工具来看,它具有相关性。

  • 物理学中的信息

    1. 兰道尔原理:抹去一位信息所需的最小能量与系统操作的温度成正比(Landauer 1961, 1991)。

    2. 量子信息:量子位是经典位的推广,由二态量子力学系统中的量子态描述,形式上等价于复数上的二维向量空间(冯·诺伊曼 1932 年;雷迪和斯特尔茨纳 2001 年)。

  • 信息的定性理论

    1. 语义信息:巴尔-希勒尔和卡尔纳普发展了一种语义信息理论(1953 年)。弗洛里迪(2002 年,2003 年,2011 年)将语义信息定义为良好形成、有意义和真实的数据(朗 2014 年;伦德格伦 2019 年)。基于形式熵的信息定义(费舍尔、香农、量子、科尔莫哥洛夫)在更一般的层面上工作,并不一定衡量有意义真实的数据集中的信息,尽管有人可能辩称为了能够衡量数据必须是良好形成的(有关讨论请参见第 6.6 节逻辑和语义信息)。语义信息接近我们日常的关于真实陈述所传达的信息的天真概念。

    2. 信息作为一个代理状态:对于像知识和信念这样的概念的形式逻辑处理是由 Hintikka(1962,1973)发起的。Dretske(1981)和 van Benthem&van Rooij(2003)在信息论的背景下研究了这些概念,参见 van Rooij(2003)关于问题和答案,或者 Parikh&Ramanujam(2003)关于一般消息传递。当 Dunn 将信息定义为“当我们去除信念,证明和真理时,知识剩下的东西”(Dunn 2001:423; 2008)时,他似乎也考虑了这个概念。Vigo 提出了一种基于代理人概念获取复杂性的结构敏感信息理论(Vigo 2011, 2012)。

概述显示了一个正在发展中的研究领域,其中正当性的背景尚未完全与发现的背景分离。许多提案具有工程风格,并依赖于叙述(发送消息,从集合中选择元素,图灵机作为抽象模型的人类计算机),这些叙述不能充分体现基本概念的本质。其他提案在哲学上有更深的根源,但其表述方式使其难以嵌入科学研究中。以三个有影响力的提案及其关于信息的定义(Shannon-概率;Kolmogorov-计算;Floridi-真理)为例,可以观察到它们几乎没有共同之处。有些甚至是相互冲突的(真理 vs. 概率,确定性计算 vs. 概率)。在热力学和信息论的背景下存在类似的情况:它们使用相同的公式来描述根本不同的现象(气体中粒子的分布速度 vs. 消息集合的概率分布)。

直到最近,这些理论的统一可能性一直受到普遍怀疑(Adriaans&van Benthem 2008a),但经过二十年的研究,统一的前景似乎更好。与同一基本数学框架相关的不同信息的定量概念与不同的叙述(计数、接收消息、收集信息、计算)相关。信息哲学中的许多问题围绕着数学哲学中的相关问题。已经研究了各种形式模型之间的转换和简化(Cover&Thomas 2006; Grünwald&Vitányi 2008; Bais&Farmer 2008)。似乎出现的情况与能量的概念类似:关于能量有各种形式的子理论(动能、势能、电能、化学能、核能),它们之间有明确定义的转换。除此之外,“能量”一词在口语中被宽泛使用。二十世纪量化测量信息的一致理论的出现与计算理论的发展密切相关。在这个背景下,普遍性、图灵等价性和不变性是核心概念:因为图灵系统的概念定义了通用可编程计算机的概念,所有通用计算模型似乎具有相同的能力。这意味着对于通用计算模型(递归函数、图灵机、λ 演算等)可定义的所有可能的信息度量在加法常数模下是不变的。

Adriaans (2020, 2021) 提出了一种统一的研究计划,该计划以差分信息理论(DIT)为名:这是一种纯数学的非算法描述性信息理论,基于 1)使用对数函数来测量自然数中的信息(详见第 5.1.7 节进行深入讨论)和 2)递归函数的信息效率概念。其他定量提议,如香农信息和科尔莫哥洛夫复杂性,可以作为应用信息理论的形式,涉及存在时间概念的半物理系统。DIT 的一个重要优势是递归函数的公理定义。这使得信息理论能够作为一门严格的学科,符合数学和物理学的核心概念。使用差分信息理论,可以研究计算、随机(以及游戏玩法或创造性过程等混合过程)的信息的生成和破坏。

2. 术语的历史和信息概念

有关术语“信息”及其相关概念的详细历史是复杂的,大部分尚待撰写(Seiffert 1968; Schnelle 1976; Capurro 1978, 2009; Capurro & Hjørland 2003)。术语“信息”的确切含义在不同的哲学传统中有所不同,其在口语中的使用在地理上和在不同的实际语境中也有所不同。尽管对信息概念的分析从西方哲学的早期开始就是一个主题,但对信息作为一个哲学概念的明确分析是最近的,可以追溯到二十世纪下半叶。目前可以明确的是,信息是科学、人文学科和我们日常生活中的一个关键概念。我们对世界的所有了解都是基于我们接收或收集到的信息,而每一门科学原则上都涉及信息。信息有一个相关概念网络,根源于物理学、数学、逻辑学、生物学、经济学和认识论等各个学科。

直到二十世纪下半叶,几乎没有现代哲学家认为“信息”是一个重要的哲学概念。这个术语在爱德华兹(1967)的著名百科全书中没有词条,并且在温德尔班德(1903)中也没有提到。在这个背景下,“信息哲学”引起了人们的兴趣,这是一个最近的发展。然而,从思想史的角度来看,对“信息”概念的反思一直是哲学史上的一个主题。重建这一历史对于信息研究是相关的。

任何“思想史”方法的问题在于验证所研究的概念在哲学史上确实具有连续性的基本假设。在对信息的历史分析中,人们可能会问奥古斯丁讨论的“信息”概念是否与香农信息有任何联系,除了术语的相似之外。同时,人们可能会问洛克的“历史的、简明的方法”是否对现代信息概念的出现做出了重要贡献,尽管在他的著作中洛克几乎没有以技术意义上的“信息”一词。如下所示,存在着一系列涉及信息概念的思想,从古代一直发展到近代,但对信息概念的历史进一步研究是必要的。

在早期对知识进行哲学分析的重要主题是操纵蜡块的范例:通过简单地变形、在上面盖上印章或在上面写字。蜡可以在体积(扩展)保持不变的同时,具有不同的形状和次要特性(温度、气味、触感),这使得它成为一种丰富的类比源,对希腊、罗马和中世纪文化来说是自然的,蜡既用于雕塑,又用于书写(蜡板)和蜡画。在德谟克利特、柏拉图、亚里士多德、提奥弗拉斯托斯、西塞罗、奥古斯丁、阿维森纳、邓斯·斯科特、阿奎那、笛卡尔和洛克的著作中都可以找到这个主题。

2.1 古典哲学

在古典哲学中,“信息”是一个与知识和本体论理论相关的技术概念,起源于柏拉图(公元前 427-347 年)的形式理论,该理论在他的一些对话(《费多篇》、《斐德鲁斯篇》、《饭宴篇》、《泰迈篇》、《理想国篇》)中得到发展。物理世界中的各种不完美的个体马可以被确定为马,因为它们参与了思想世界或形式世界中“马性”的静态非时空观念。当后来的作者如西塞罗(公元前 106-公元前 43 年)和奥古斯丁(公元 354-公元 430 年)用拉丁语讨论柏拉图的概念时,他们使用 informare 和 informatio 这些术语来翻译希腊语的技术术语,如 eidos(本质)、idea(理念)、typos(类型)、morphe(形式)和 prolepsis(表象)。词根“form”在 in-form-ation(Capurro&Hjørland 2003)一词中仍然可辨认出来。柏拉图的形式理论是为各种哲学问题提供解决方案的尝试:形式理论在静态(巴门尼德斯,约公元前 450 年)和动态(赫拉克利特斯,约公元前 535-公元前 475 年)的本体论概念之间进行了调和,并为人类知识理论的研究提供了一个模型。根据忒弗拉斯托斯(公元前 371-公元前 287 年)的说法,蜡板的类比可以追溯到德谟克利特斯(约公元前 460-公元前 380/370 年)(《感官篇》50)。在《忒艾特篇》(191c,d)中,柏拉图将我们的记忆功能与蜡板进行了比较,我们的感知和思想就像印章在蜡中留下印记一样。请注意,将符号印在蜡中的隐喻本质上是空间的(广泛的),并且不容易与柏拉图支持的思想的非时空解释相一致。

如果考虑亚里士多德(公元前 384-公元前 322 年)的四因说,就可以了解“形式”概念在古典方法论中的作用。在亚里士多德的方法论中,理解一个对象意味着理解它的四个不同方面:

材料原因:: 作为其存在结果的原因,例如雕像的青铜和杯子的银,以及包含这些的类别

形式原因:: 形式或模式;即,基本公式和包含它的类别,例如比例 2:1 和数字是八度的原因,以及公式的部分

动力原因:: 第一次变化或静止的来源;例如,计划的人是原因,父亲是孩子的原因,一般来说,产生的东西是被产生的东西的原因,改变的东西是被改变的东西的原因。

最终原因:与“结束”相同;即最终原因;例如,行走的“结束”是健康。为什么人要行走?我们说“为了健康”,通过这样说,我们认为我们已经提供了原因。(亚里士多德,《形而上学》1013a)

注意,亚里士多德虽然拒绝了柏拉图的形式理论,认为其为非时间非空间的实体,但仍将“形式”作为一个技术概念。这段文字说明了了解一个物体的形式或结构,即信息,是理解它的必要条件。从这个意义上说,信息是古典认识论的一个关键方面。

2:1 的比例被引用作为一个例子,也说明了形式概念与世界由数学原理统治的深刻联系。柏拉图受到较早的毕达哥拉斯(毕达哥拉斯 572-约 500 BCE)传统的影响,认为“世界上出现和发生的一切”都可以用数字来衡量(《政治家》285a)。亚里士多德在多个场合提到柏拉图将思想与数字联系在一起的事实。尽管关于信息的形式数学理论直到 20 世纪才出现,而且必须小心不要用任何现代意义来解释希腊的数字概念,但信息本质上是一个数学概念的想法可以追溯到古典哲学:一个实体的形式被构想为可以用数字来描述的结构或模式。这样的形式既有本体论的又有认识论的方面:它解释了对象的本质和可理解性。因此,信息的概念从哲学思考的最初阶段就已经与认识论、本体论和数学联系在一起。

两个经典的思想或形式理论无法解释的基本问题是:1)认识对象的实际行为(即,如果我看到一匹马,马的概念以何种方式在我的脑海中激活);2)思维过程作为思想操纵的过程。亚里士多德在《灵魂论》中处理了这些问题,引用了印戒在蜡上的印记类比:

“感觉”是指具有在没有物质的情况下接收事物的可感知形式的能力。这必须被理解为以蜡接受印戒印记的方式进行,而没有铁或金;我们说产生印记的是青铜或金的印戒,但其特定的金属构成并不重要:类似地,感觉受到颜色、味道或声音的影响,但每种情况下物质是什么并不重要;唯一重要的是它具有什么质量,即其成分如何组合。(《灵魂论》第二卷,第 12 章)

当我们说思维是潜在地包含了可思考的一切时,我们是否已经解决了涉及共同要素的相互作用的困难?尽管实际上它什么也没有,直到它思考了什么。它所思考的必须在其中,就像字符可以说是在一个尚未写下任何东西的写字板上一样:这正是心灵的情况。(《灵魂论》第三卷,第 4 章)

这些段落充满了有影响力的思想,可以事后将其解读为信息哲学的纲领性内容:信息过程可以被看作是字符在蜡板(tabula rasa)上的印记,思考可以用符号的操纵来分析。

2.2 中世纪哲学

在整个中世纪,对信息概念的反思被不同的思想家接纳。奥古斯丁在《三位一体》第十一卷中的一段是亚里士多德影响的典型例子。在这里,他将视觉分析为理解三位一体的类比。有三个方面:外部世界的物质形式,通过视觉感知的信息,以及在心灵中产生的形式。对于这个信息过程,奥古斯丁使用了印戒在蜡上留下印记的形象(《三位一体》第十一卷第 2 章第 3 段)。Capurro(2009)观察到,这种分析可以被解释为现代信息理论中“发送消息”的早期版本,但这个想法更古老,是希腊思想中的一个常见主题(柏拉图《忒伊泰特斯》191c,d;亚里士多德《论灵魂》第二卷第 12 章,第三卷第 4 章;忒奥弗拉斯托斯《论感官》50)。

后来,这个“白板”概念在阿维森纳(公元 980 年-1037 年)的知识理论中得到了进一步的发展:

人类的智力在出生时就像一块白板,是一种纯粹的潜力,通过教育得以实现并获得知识。通过对这个世界上的对象进行经验性的熟悉,人们抽象出普遍概念来获得知识。(Sajjad 2006 [其他互联网资源[以下简称 OIR] ])

人类思维的白板发展的想法是阿拉伯安达卢西亚哲学家伊本·图费尔(1105 年-1185 年,西方称为“阿布巴克尔”或“伊本·图费尔”)的小说《海伊·伊本·亚克丹》的主题。这部小说描述了一个孤立的孩子在一个荒岛上的成长过程。后来的拉丁文翻译本名为《自学哲学家》(1761 年),影响了经验主义者约翰·洛克的白板理论的制定。

除了神学和哲学之间的永久创造性紧张关系外,中世纪思想在阿拉伯学者的启发下,在 12 世纪重新发现亚里士多德的《形而上学》后,可以被描述为对主要是亚里士多德的古典理论的详细而微妙的解释和发展。在阿维森纳的影响下,思想家如阿奎那(1225-1274 年)和邓斯·斯科特(1265/66-1308 年)对信息的概念进行了探讨。当阿奎那讨论天使是否能与物质互动时,他引用了亚里士多德的物质形态学说(即物质(hylo(木材),物质)和形式(morphè)构成物质的理论)。在这里,阿奎那将其翻译为物质的信息(informatio materiae)(《神学大全》1a 110 2; Capurro 2009)。邓斯·斯科特在讨论奥古斯丁的《三位一体论》中的视觉理论时,提到了信息的技术意义(Duns Scotus, 1639, “De imagine”, Ordinatio, I, d.3, p.3)。

古典哲学中已经存在的柏拉图式理想主义(universalia ante res)和亚里士多德式现实主义(universalia in rebus)之间的紧张关系被重新捕捉为普遍性问题:像“人性”或马的概念这样的普遍性质是否存在于实例化它们的个体实体之外?正是在拒绝普遍性的背景下,奥克姆(约 1287-1347 年)提出了他著名的剃刀原则:不应该超出必要的范围增加实体。在他们的著作中,阿奎那和斯科特斯使用拉丁语词汇 informatio 和 informare 具有技术意义,尽管奥克姆没有使用这种术语。

2.3 现代哲学

在现代哲学中,信息概念的历史是复杂的。可能从 14 世纪开始,“信息”一词在不同发展中的欧洲语言中出现,其一般含义是“教育”和“调查”。法国历史词典 Godefroy(1881)将“信息”的早期含义给出为“形成行动”、“指导”、“调查”、“科学”和“才能”。这个术语也明确用于法律调查(Dictionnaire du Moyen Français(1330-1500)2015)。由于这种口语用法,术语“信息”逐渐失去了与“形式”概念的关联,并在哲学文本中越来越少以正式的意义出现。

在中世纪末期,社会和科学发生了根本性的变化(Hazard 1935; Ong 1958; Dijksterhuis 1986)。在一个漫长而复杂的过程中,亚里士多德的四因法则被转化为满足实验科学需求的方法论:

  1. 材料原因发展成现代物质概念。

  2. 形式原因被重新解释为空间中的几何形式。

  3. 效力原因被重新定义为物质体之间的直接机械相互作用。

  4. 最终原因被视为非科学的。因此,牛顿的同时代人对他的引力理论中的引力概念感到困惑。作为远距离作用的引力似乎是最终原因的重新引入。

在这个不断变化的背景下,蜡印象的类比被重新解释。经验主义者们发展了现代信息概念的原始版本,即一组或一系列简单思想的结构,但由于术语“信息”的技术含义丧失,这种知识理论从未被认定为一种新的“信息理论”。

这种方法论的转变的结果是,只有能够用物质体之间的机械相互作用来解释的现象才能被科学研究。从现代意义上讲,这意味着将强度属性化简为可测量的广度属性。对于伽利略来说,这一洞见是具有纲领性的:

为了在我们身上激发出味道、气味和声音,我相信外部物体除了形状、数量和缓慢或快速的运动之外,不需要任何东西。(伽利略 1623 [1960: 276)

这些洞察力后来导致了关于主要品质(空间、形状、速度)和次要品质(热、味道、颜色等)之间差异的学说。在信息哲学的背景下,伽利略关于“热”这个次要品质的观察尤为重要,因为它们为 19 世纪热力学的研究奠定了基础:

在我已经表明许多被认为是存在于外部物体中的品质实际上只存在于我们内部,并且在我们外部只是名字的情况下,我现在说我倾向于认为热是这种性质。那些在我们身上产生热量并使我们感到温暖的材料,被统称为“火”,那么它们将是一群具有特定形状和特定速度的微小粒子。(伽利略 1623 [1960: 277)

这一转变中的关键思想家是勒内·笛卡尔(1596-1650 年)。在他的《冥想》中,“证明”物质(res extensa)和思想(res cogitans)是不同的实体(即,独立存在的存在形式)之后,这些实体之间的相互作用问题成为一个问题。对于笛卡尔来说,蜡的可塑性是反对物质对思想的影响的明确论据(冥想录 II,15)。当蜡被加热时,它失去了形状和其他特性,这意味着感官不能足够地识别世界上的物体。因此,真正的知识只能通过“心灵的检视”来达到。在这里,蜡的隐喻被用来反驳通过感官获得知识的可能性,这个隐喻已经被使用了 1500 多年来解释感官印象。由于物质的本质是延展性,思考本质上不能被理解为一种空间过程。笛卡尔仍然以原始的学院派非几何(非时间性,非空间性)意义上使用“形式”和“观念”这些术语。一个例子是在《第一哲学冥想》中对梅尔森的第二个回答中对上帝存在的简短形式证明。

我使用“观念”一词来指代任何思想的形式,对其直接感知使我意识到这个思想。 (我使用“观念”一词来指代任何思想的形式,对其直接感知使我意识到这个思想)

我称它们为“思想”,笛卡尔说

只有当它们向大脑的那部分提供信息时,它们对于思维本身才有所区别。 (sed tantum quatenus mentem ipsam in illam cerebri partem conversam informant). (笛卡尔,1641 年,对第二个异议的回应,证明上帝的存在和灵魂的区别,按照几何学的方式布置。)

因为 res extensa 和 res cogitans 是不同的物质,思考的行为永远无法在空间中模拟:机器无法具有普遍的理性能力。笛卡尔提出了两个独立的动机:

其中第一个是它们永远无法使用单词或其他以我们能够表达思想的方式排列的符号来向他人表达我们的思想:(...)第二个测试是,尽管这样的机器可能在许多事情上与我们中的任何人一样甚至更完美地执行,但毫无疑问,它们在某些其他方面会失败,从中可以发现它们不是出于知识而行动,而仅仅是出于器官的安排:因为理性是一种在每个场合都可以使用的普遍工具,而这些器官则需要为每个特定的行动进行特定的安排;因此,在任何机器中存在足以使其能够在生活的各种情况下以我们的理性使我们行动的各种器官的多样性是在道义上不可能的。(《方法论演讲》,1647 年)

这段话是相关的,因为它直接反驳了人工智能的可能性,甚至可以解释为反对通用图灵机的可能性:作为一种普遍工具的理性永远无法在空间中模拟。这种观念与现代信息的概念相反,作为一种可测量的数量,它本质上是空间的,即广泛的(但与笛卡尔的概念不同)。

笛卡尔并没有提出对形式和观念的新解释,但他为围绕着观念的本质展开的辩论奠定了基础,这个辩论围绕着两种相反的立场展开:

理性主义:笛卡尔认为观念是与生俱来的,因此是先验的。这种理性主义暗示了对观念和形式的解释,认为它们是非时空的、但是复杂的结构,比如“一匹马”的观念(即有头、身体和腿)。它也与将认识主体解释为一个被创造的存在(ens creatu)相吻合。上帝按照自己的形象创造了人类,因此为人类思维提供了一套足够的观念来理解他的创造。在这个理论中,知识的增长是先验有限的。从无中创造新的观念是不可能的。这种观点很难与实验科学的概念相调和。

经验主义:概念是在思维中根据与感觉印象相关的观念后验地构建的。这个学说暗示了对观念概念的新解释,即观念是:

无论是人们思考时所理解的任何对象...无论是幻象、概念、种类,或者是思维时心灵可以从事的任何事物。(Locke 1689,第 I 册,第 1 章,第 8 段)

在这里,思想被构想为人类知识和思考的基本构建块。这与实验科学的要求非常契合。不利之处在于,思维永远无法对因果关系和观察实体的本质,包括自身的身份,提出确凿的真理。人类知识本质上变得具有概率性 (Locke 1689: 第 I 册,第 4 章,第 25 段)。

洛克重新解释了“思想”这一概念,将其视为心灵中存在的任何实体的“结构占位符”,这是现代信息概念出现的重要一步。由于这些思想并不参与确凿知识的证明,强调思想的非时间性和非空间性的必要性消失了。基于感知经验中的一系列基本思想构建概念的过程,为将知识重建为一个主体的广泛属性打开了大门:更多的思想意味着更多的可能性知识。

在十七世纪下半叶,像帕斯卡(1623-1662)、费马(1601 或 1606-1665)和克里斯蒂安·惠更斯(1629-1695)这样的研究者发展了概率的正式理论。惠更斯的著作《关于骰子游戏的推理》被约翰·阿巴斯诺特(1692 年)翻译成英文。对于这些作者来说,世界本质上是机械的,因此是确定性的,概率是人类知识的一种质量,是由于其不完善性引起的:

一个骰子不可能以确定的力量和方向落在确定的一面上,只是我不知道使其落在确定的一面上的力量和方向,因此我称之为机会,这只是缺乏技巧;…(约翰·阿巴斯诺特《机会的法则》(1692 年),前言)

这段文字可能影响了休谟,他是第一个将形式概率理论与知识理论结合起来的人:

虽然世界上没有偶然性这样的事情;我们对任何事件真正原因的无知对理解产生了相同的影响,并产生了类似的信念或观点。(...)如果一个骰子的四面上标有一个数字或点数,而另外两面上标有另一个数字或点数,那么前者出现的可能性比后者更大;但如果它有一千个面以相同的方式标记,并且只有一个面不同,那么概率将更高,我们对事件的信念或期望将更加稳定和可靠。这种思考或推理的过程可能看起来琐碎和显而易见;但对于那些更仔细考虑的人来说,它可能提供了有趣的思考材料。(休谟 1748 年:第六节,“概率”1)

在这里,对未来的知识作为一种信念程度是以概率来衡量的,而概率又是以世界中一个确定性系统可以具有的配置数量来解释的。现代信息理论的基本构建模块已经就位。有了这个新的知识概念,经验主义者为后来热力学的发展奠定了基础,将热量的次要质量归纳为物体的主要质量。

与此同时,“信息”一词在经验主义者的著作中似乎失去了很多技术含义,因此这一新发展并没有被指定为对“信息”概念的新解释。洛克有时使用短语说我们的感官“告知”我们有关世界的信息,并偶尔使用“信息”一词。

对于什么信息,什么知识,这个命题中包含了什么,即“铅是一种金属”,对于一个知道铅这个名字所代表的复杂概念的人来说,它有什么信息?(洛克 1689 年:第四册,第 8 章,第 4 段)

休谟在观察时似乎以同样随意的方式使用信息:

两个完全相似的对象,甚至在不同的时间出现在同一个地方,可能在数量上是不同的:由一个对象产生另一个对象的力量从其概念中无法发现,因此显然,因果关系是我们从经验中获得信息的关系,而不是从任何抽象推理或反思中获得的。(休谟 1739 年:第三部分,第 1 节)

经验主义的方法论并非没有问题。最大的问题是所有的知识都变成了概率性的和后验的。伊曼努尔·康德(1724-1804)是第一个指出人类思维具有关于空间、时间和因果关系的元概念的人,这些概念本身不能仅仅被理解为“观念”的简单组合的结果。更重要的是,这些直觉使我们能够确切地阐述科学的见解,例如欧几里得空间中三角形的角和为 180 度的事实。这个问题无法在经验主义的框架下解释。如果知识是通过观念的组合来创造的,那么人类思维中必须存在一种先验的观念综合。根据康德的观点,这意味着人类思维可以评估自己制定科学判断的能力。在他的《纯粹理性批判》(1781)中,康德发展了作为对人类知识必要条件的超验哲学的研究。尽管康德的超验计划没有直接对信息概念的发展做出贡献,但他确实影响了 19 世纪和 20 世纪与数学和知识基础相关的研究,例如弗雷格、胡塞尔、罗素、布劳尔、L·维特根斯坦、哥德尔、卡尔纳普、波普尔和奎因的工作。

2.4 术语“信息”的历史发展

术语“信息”的历史与西方哲学中认识论和本体论的核心问题研究密切相关。在古典和中世纪文本中作为技术术语开始后,“信息”这个术语几乎从现代哲学的讨论中消失,但在口语中却变得流行起来。逐渐地,这个术语获得了一个抽象的质量名词的地位,这个意义与古典的过程导向意义正交。在这种形式下,二十世纪的几位研究者(费舍尔 1925 年;香农 1948 年)引入了形式化的方法来衡量“信息”。这反过来又引起了对信息概念的哲学兴趣的复兴。这个复杂的历史似乎是我们难以制定一个满足所有直觉的统一信息概念定义的主要原因之一。至少有三个不同的“信息”词义在历史上是相关的:

“信息”作为被告知的过程。 这是在西塞罗(公元前 106-公元 43 年)和奥古斯丁(公元 354-公元 430 年)等作者的著作中找到的最古老的意义,而在现代话语中已经失去了,尽管信息与过程(即计算、流动或发送消息)的关联仍然存在。在古典哲学中,可以说当我将马识别为马时,马的“形式”就种植在我的脑海中。这个过程是我对马的本质的“信息”。教学的行为也可以称为学生的“信息”。以同样的意义,可以说雕塑家通过“信息”一块大理石来创造雕塑。雕塑家的任务是雕塑的“信息”(Capurro&Hjørland 2003)。这个过程导向的意义在西欧话语中存活了很长时间:即使在 18 世纪,鲁滨逊·克鲁索也可以将他对仆人星期五的教育称为他的“信息”(Defoe 1719:261)。伯克利也以这个意义使用:“我喜欢了解我所遇到的所有主题的信息,尤其是那些最重要的主题”(Alciphron 对话 1,第 5 节,第 6/10 段,参见伯克利 1732)。

“信息”作为一个代理的状态, 即作为被告知过程的结果。如果一个人教给学生毕达哥拉斯定理,那么在这个过程完成后,可以说学生“掌握了毕达哥拉斯定理的信息”。在这个意义上,“信息”一词是与哲学中许多其他技术术语(物质、意识、主体、客体)相同的动词实体化的结果(informare > informatio),这种术语形成方式因引发概念上的困难而臭名昭著。我“拥有”意识的事实可以从我有意识的事实中推导出来吗?我“拥有”信息的事实可以从我被告知的事实中推导出来吗?这种现代实体化意义的转变似乎是逐渐发生的,并且至少从 15 世纪中叶起在西欧普遍存在。在文艺复兴时期,学者可以被称为“有信息的人”,就像我们现在可以说某人接受了教育一样(Adriaans & van Benthem 2008b; Capurro & Hjørland 2003)。在简·奥斯汀的《爱玛》中,可以读到:“马丁先生,我想,除了自己的事业范围之外,不是一个有信息的人。他不读书”(奥斯汀 1815: 21)。

“信息”作为告知的倾向, 也就是说,作为一个对象向代理人提供信息的能力。当教授我毕达哥拉斯定理的行为让我获得关于这个定理的信息时,自然而然地可以假设解释该定理的文本实际上“包含”了这些信息。当我阅读这个文本时,它有能力向我提供信息。同样地,当我从老师那里获得信息时,我有能力将这些信息传递给另一个学生。因此,信息成为可以存储和衡量的东西。信息作为一个抽象的质量名词的最后一个概念在现代社会得到了广泛的接受,并在 19 世纪形成了其最终形式,使得福尔摩斯能够做出以下观察:“……莱斯特雷德朋友手中握有他自己并不知道价值的信息”(柯南·道尔 1892 年的《贵族学士的冒险》)。与“形式”和“通知”等技术哲学概念的关联已经从普通意识中消失,尽管信息与存储、收集、计算和教学等过程之间的关联仍然存在。

3. 现代信息理论的基本构建模块

事后看来,与最优编码系统、理想语言以及计算与处理语言之间的关联有关的许多概念自 17 世纪以来一直是哲学思考中的重要主题。

3.1 语言

有关普遍“哲学”语言的最精心构思的提案之一是由主教约翰·威尔金斯(Maat 2004)提出的:“《实际字符和哲学语言论文》”(1668)。威尔金斯的项目包括一个复杂的符号系统,据称这些符号与现实中的明确概念相关联。这类提案使哲学家们对语言和思维之间的深刻联系产生了敏感。经验主义方法论使得人们能够将语言的发展构想为一种在人类思维中的观念之间的联想的传统符号系统。当前被称为符号基础问题(任意符号如何获得它们的主观意义)的问题是十八世纪在语言起源问题背景下最激烈争论的问题之一。维科、孔迪亚克、卢梭、狄德罗、赫尔德和哈曼等不同的思想家都做出了贡献。核心问题是语言是先验给予的(由上帝)还是它是被构建的,因此是人类自己的发明。典型的是普鲁士皇家科学院在 1769 年发起的竞赛:

假设人类依靠他们的自然能力,他们能够发明语言吗?他们将如何自行实现这个发明?

假设男人们放任他们的自然能力,他们能发明语言吗?他们将通过什么方式来进行这种发明?[1]

这场争论持续了一个多世纪,没有得出任何结论,1866 年,巴黎语言学会(Société de Linguistique de Paris)将这个问题从其领域中驱逐出去。[2]

在哲学上更相关的是莱布尼茨(1646-1716)关于所谓的普遍特征的工作:一种能够成为科学推理的完美工具的普遍逻辑演算法的概念。莱布尼茨哲学的一个核心前提是,由于世界作为上帝创造物的完美性质(ratio essendi = ration cognoscendi,存在的起源是认识的起源),这样一种完美的科学语言在原则上是可能的。这个原则被沃尔夫(1679-1754)所拒绝,他提出了更具启发性的组合特征(van Peursen 1987)。这些想法必须等到像布尔(1854 年,《思维定律的研究》)、弗雷格(1879 年,《概念符号》)、皮尔斯(他在 1886 年已经建议使用电路来处理逻辑运算)以及怀特海德和罗素(1910-1913 年,《数学原理》)这样的思想家才能得到更有成果的处理。

3.2 最优码

从书籍印刷的发明以来,人们就知道语言中字母的频率是不同的。印刷商需要比起“x”或“q”更多的“e”和“t”来排版英文文本。自 17 世纪以来,这一知识被广泛用于解密密码(Kahn 1967;Singh 1999)。1844 年,塞缪尔·莫尔斯的助手阿尔弗雷德·维尔在新泽西州莫里斯敦的一家当地报纸中确定了字母的使用频率,并用它们来优化莫尔斯电码。因此,在香农发展其数学基础之前,最优码理论的核心已经在很久以前就已经确立了(Shannon 1948;Shannon & Weaver 1949)。历史上重要但在哲学上不太相关的是查尔斯·巴贝奇构建计算机的努力(1821 年的差分机和 1834-1871 年的分析机),以及艾达·洛夫莱斯(1815-1852)试图为分析机设计被认为是第一种编程语言的努力。

3.3 数字

表示数字的最简单方法是使用一元系统。在这里,数字的表示长度等于数字本身的大小,即数字“十”表示为“\”。古典罗马数字系统是一种改进,因为它包含了不同的符号来表示不同的数量级(一 = I,十 = X,百 = C,千 = M)。这个系统有巨大的缺点,因为原则上需要无限多的符号来编码自然数,因此相同的数学运算(加法、乘法等)在不同的数量级上采取不同的形式。公元 500 年左右,印度发明了零。使用零作为占位符,我们可以用有限的符号编码无限多的数字(一 = I,十 = 10,百 = 100,千 = 1000 等)。从现代的角度来看,只要我们有 0 作为占位符和有限数量的其他符号,就可以有无限多的位置制。我们常用的十进制数系统有十个数字“0、1、2、3、4、5、6、7、8、9”,将数字二百五十五表示为“255”。在二进制数系统中,我们只有符号“0”和“1”。在这里,二百五十五表示为“11111111”。在一个十六进制系统中,有 16 个符号(0、1、2、3、4、5、6、7、8、9、a、b、c、d、e、f),同样的数字可以写为“ff”。注意这些表示的长度差异很大。使用这种表示法,数学运算可以标准化,无论我们处理的数字的数量级如何,即数学函数(加法、减法、乘法和除法等)的统一算法处理与这种位置制相关联。

位置制数系统的概念是由波斯数学家 al-Khwarizmi(约 780 年-约 850 年)引入欧洲的。他关于数字的主要作品(约 820 年)在 12 世纪被翻译成拉丁文,名为《代数与 Almucabola 之书》,其中包括了“代数”一词。我们的“算法”一词源于他名字的拉丁形式 Algoritmi。位置制数系统简化了商业和科学计算。

在 1544 年,迈克尔·斯蒂费尔在《完全算术》(1544)中引入了指数的概念。因此,8 可以写成 23,25 可以写成 52。指数的概念立即引出了其反函数——对数的概念:logbba=a。斯蒂费尔比较了算术序列:

−3,−2,−1,0,1,2,3

在其中,术语 1 与几何序列有 1 的差异:

18,14,12,1,2,4,8

在其中,术语具有 2 的比率。指数表示法使他能够将第二个表的值重写为:

2−3,2−2,2−1,20,21,22,23

这个表格结合了两个表格。这可能是第一个对数表。约翰·纳皮尔(1550-1617)在他的主要作品(纳皮尔 1614)中发展了更明确和实用的对数理论。他创造了对数这个术语(logos + arithmetic:数字的比率)。从算术和几何级数的匹配可以清楚地看出,对数将乘积化简为和:

logb(xy)=logb(x)+logb(y)

它们还将除法化简为差异:

logb(x/y)=logb(x)−logb(y)

并且将幂转化为乘积:

logb(xp)=plogb(x)

在布里格斯(1624 年)出版对数表之后,这种快速简化复杂计算的新技术迅速流行起来。

3.4 物理学

伽利略(1623 年)已经提出,像热和压力这样的现象的分析可以简化为对基本粒子运动的研究。在经验方法论中,这可以被理解为如何将物体或气体的热这种次要质量的感官体验简化为粒子的运动。伯努利(1738 年出版的《流体力学》)是第一个发展出描述宏观可观察现象的气体动力学理论,该理论以遵循牛顿力学定律的粒子系统的微观状态为基础,但要提出一个适当的数学处理是相当费智力的工作。克劳修斯(1850 年)在引入粒子在两次碰撞之间的平均自由程的概念时迈出了决定性的一步。这为麦克斯韦提供了统计处理的途径,他在 1857 年制定了他的分布定律,这是物理学中的第一个统计定律。将所有概念联系在一起的决定性公式(尽管实际公式是普朗克提出的)是由玻尔兹曼发展出来的。

S=klogW

它以系统的熵 S 来描述,该熵是与系统的可观测宏观状态一致的可能微观状态数 W 的对数,其中 k 是著名的玻尔兹曼常数。从现代科学的角度来看,这个公式的价值几乎是不可估量的。从信息论的角度来看,“logW”这个表达式可以有多种解释方式:

  • 作为系统中的熵量。

  • 作为计算与宏观观察一致的所有可能微观状态所需的数字长度。

  • 作为识别系统当前未知微观状态的最佳指标的长度,即我们的“信息缺乏”的度量。

  • 作为与宏观观察一致的系统任何典型特定微观状态的概率度量。

因此,它将对数的加性特性与熵、概率、典型性和信息的广泛特性相连接,这是利用数学分析自然的基本步骤。后来,吉布斯(1906 年)改进了公式:

S=−∑ipilnpi,

其中 pi 是系统处于第 i 个微观状态的概率。这个公式被香农(1948 年;香农和韦弗 1949 年)采用来描述信息系统的通信熵。尽管熵和信息的数学处理之间存在密切联系,但对这一事实的确切解释自那时以来一直存在争议(Harremoës 和 Topsøe 2008 年;Bais 和 Farmer 2008 年)。

4. 信息哲学的发展

信息的现代理论出现在二十世纪中叶的一个特定的知识氛围中,科学与学术哲学的某些领域之间的距离相当大。一些哲学家表现出一种特殊的反科学态度:海德格尔说“科学不思考”。另一方面,维也纳学派的哲学家公开贬低传统哲学,认为它处理的是虚幻的问题(卡尔纳普 1928 年)。逻辑实证主义的研究计划是基于经验主义和逻辑最新进展的严格重建哲学。也许正是因为这种知识氛围,信息理论的早期重要发展在很大程度上与主流哲学思考相隔离。一个里程碑是德雷茨克在八十年代初的工作(德雷茨克 1981 年)。自世纪之交以来,对信息哲学的兴趣大大增长,这在很大程度上受到卢西亚诺·弗洛里迪关于语义信息的工作的影响。量子计算的快速理论发展以及相关的量子信息概念也对哲学思考产生了影响。

4.1 波普尔:信息作为可证伪程度

逻辑实证主义研究计划在二十世纪上半叶使经验主义的旧项目重新焕发了活力。它的雄心是基于直接观察和关于这些观察的陈述之间的逻辑关系来重建科学知识。康德对经验主义的旧批评被奎因(1951 年)重新焕发。在逻辑实证主义的框架内,归纳是无效的,因果关系永远无法客观地建立。在他的《研究逻辑》(1934 年)中,波普尔阐述了他著名的划界标准,并明确将其定位为对休谟归纳问题的解决方案(波普尔 1934 年 [1977 年:42])。以一般定律形式表述的科学理论永远无法得到明确的验证,但它们可以通过一次观察来被证伪。这意味着,如果一个理论更丰富并提供更多的被证伪的机会,那么它就是“更”科学的:

因此,可以说理论传达的经验信息量,或者说它的经验内容,随着其可证伪性的程度增加而增加。(波普尔 1934 年 [1977 年:113],原文强调)

这个引文在波普尔的研究计划背景下表明,将科学理论视为一组逻辑陈述的量化经验信息的野心,在香农提出信息理论之前的十多年前就已被认识为一个哲学问题。波普尔意识到理论的经验内容与其可证伪性有关,而这又与理论中的陈述的概率有关。具有更多经验信息的理论的概率较低。波普尔区分了逻辑概率和数值概率(“这在博弈论、概率论和统计学中使用”;波普尔 1934 [1977: 119])。在对信息概念的后期发展具有规划性的一段中,他定义了逻辑概率的概念:

陈述的逻辑概率与其可证伪性相互补充:随着可证伪性的降低,逻辑概率增加。逻辑概率 1 对应于可证伪性为 0 的程度,反之亦然。(波普尔 1934 [1977: 119],原文强调)

可以将数值概率解释为适用于逻辑概率关系中可以定义测量系统的子序列(根据频率估计)。 (波普尔 1934 [1977: 119],原文强调)

波普尔从未成功地制定出一个好的形式理论来衡量这种信息的数量,尽管在后来的著作中,他暗示香农的信息理论可能是有用的(波普尔 1934 [1977],404 [附录 IX,来自 1954 年])。这些问题后来在科学哲学中得到了发展。确认理论研究归纳理论以及证据“支持”某个理论的方式(Huber 2007 [OIR])。虽然卡纳普的工作在科学哲学和信息哲学两个学科中激发了重要的发展,但两个学科之间的联系似乎已经失去了。Kuipers(2007a)中没有提到信息理论或信息哲学中的任何更基础的工作,但这两个学科肯定有重叠的领域。(例如,Kuipers(2007b)和 Rathmanner&Hutter(2011)对所谓的黑乌鸦悖论的讨论。)

4.2 香农:以概率定义的信息

在两篇具有里程碑意义的论文中,香农(1948 年;Shannon&Weaver 1949 年)对一个消息系统的通信熵进行了描述:

H(P)=−∑i∈Apilog2pi

这里 pi 是 A 中消息 i 的概率。这正是物理学中吉布斯熵的公式。使用以 2 为底的对数确保代码长度以比特(二进制位)为单位进行测量。很容易看出,当所有消息具有相等的概率且典型时,系统的通信熵是最大的。

个体消息 x 中的信息量 I 由以下公式给出:

I(x)=−logpx

这个公式可以解释为玻尔兹曼熵的反函数,涵盖了我们关于信息的一些基本直觉:

  • 一个消息 x 以 0 到 1 之间的概率 px 发生。

  • 如果 px=1,则 I(x)=0。如果我们确定会收到一条消息,那么它实际上不包含任何“新闻”。消息的概率越低,它包含的信息越多。像“太阳明天会升起”这样的消息似乎比“耶稣是凯撒”这样的消息包含的信息更少,正是因为第二个陈述更不可能被任何人辩护(尽管可以在网络上找到)。

  • 如果两条消息 x 和 y 是无关的,则 I(x 和 y)=I(x)+I(y)。信息是广泛的。两条组合消息中的信息量等于各个消息中信息量的总和。

信息作为概率的负对数是唯一完全满足这些约束条件的数学函数(Cover&Thomas 2006)。Shannon 提供了一个理论框架,其中二进制字符串可以被解释为包含一定数量信息的(编程)语言中的单词(参见 3.1 语言)。表达式 −logpx 确切地给出了消息 x 的最佳编码长度,并且作为这样的形式化,它证明了当频繁出现的字母获得较短的表示时,编码更有效(参见 3.2 最佳编码)。对数作为将乘法简化为加法的方式(参见 3.3 数字)是系统广泛属性的自然表示,并且在 19 世纪已经被物理学家使用(参见 3.4 物理学)。

Shannon 的定义明确不涵盖作为命题解释的消息的实际内容。因此,“耶稣是凯撒”和“月亮是由绿色奶酪制成”的陈述可能携带相同数量的信息,但它们的含义完全不同。信息哲学中的大部分工作都致力于制定更多语义信息理论(Bar-Hillel&Carnap 1953; Floridi 2002, 2003, 2011)。尽管 Shannon 的提议最初几乎被哲学家完全忽视,但在过去几十年中,它们对哲学问题的影响变得明显。Dretske(1981)是最早分析 Shannon 理论哲学含义的人之一,但各种逻辑系统与信息理论之间的确切关系仍不清楚(见 6.6 逻辑和语义信息)。

4.3 Solomonoff,Kolmogorov,Chaitin:信息作为程序的长度

Carnap(1945, 1950)提出了将一组陈述与一组观察结果相关联并定义相应概率的问题。他区分了两种形式的概率:概率 1 或“确认程度”P1(h; e)是两个句子之间的逻辑关系,一个是假设 h,另一个是报告一系列观察结果的句子 e。这类陈述要么是分析的,要么是矛盾的。第二种形式,概率 2 或“相对频率”,是统计概念。用他的学生 Solomonoff(1997)的话说:

卡尔纳普的概率模型始于一个描述整个宇宙的长序列符号。通过他自己的形式语言分析,他能够为可能代表宇宙的任何符号串分配先验概率。

卡尔纳普用于分配概率的方法并不是通用的,而是严重依赖于所使用的编码系统。只有当我们能够为“任何可能的符号串”分配通用概率时,才能发展出使用贝叶斯规则的归纳的一般理论。1960 年,索洛蒙诺夫(1960,1964a,b)在一篇论文中首次勾勒出了这个问题的解决方案的轮廓。他提出了现在称为通用概率分布的概念:将所有可能的有限字符串视为通用图灵机 U 的程序,并根据最短程序 p 的长度定义字符串 x 的概率,该程序在 U 上输出 x。

这种算法信息论的概念稍后由科尔莫戈洛夫(1965)和柴廷(1969)分别独立发明。列文(1974)将通用先验概率的数学表达形式作为通用(即,最大)下半可计算半测度 M,并证明了 M(x)的负对数与 x 的科尔莫戈洛夫复杂性在一个加性对数项上相一致。复杂性度量的实际定义是:

Kolmogorov 复杂性 字符串 x 的算法复杂性是最小程序 p 的长度 l(p),当它在通用图灵机 U 上运行时产生 x,表示为 U(p)=x:

K(x):=minp{l(p),U(p)=x}

算法信息理论(又称 Kolmogorov 复杂性理论)已经发展成为一个研究领域,涵盖了广泛的应用领域,其中许多领域在哲学上具有相关性(Li & Vitányi 2019):

  • 它为我们提供了归纳的一般理论。使用贝叶斯定理可以以最小描述长度(Rissanen 1978, 1989; Barron, Rissanen, & Yu 1998; Grünwald 2007, Long 2019)和最小消息长度(Wallace 2005)的术语对奥卡姆剃刀进行现代重述。请注意,Domingos(1998)对这些原则的普遍有效性提出了质疑。

  • 它允许我们为个体对象制定概率和信息内容。甚至个别的自然数。

  • 它为学习作为数据压缩的理论奠定了基础(Adriaans 2007)。

  • 它以不可压缩性的角度给出了字符串随机性的定义。这本身导致了一个全新的研究领域(Niess 2009; Downey & Hirschfeld 2010)。

  • 它允许我们以随机性缺陷为基础,制定一个关于理论预测价值的客观先验度量:即,最好的理论是使数据在理论条件下看起来随机的最短理论(Vereshchagin & Vitányi 2004)。

也有一些不利因素:

  • 算法复杂性是不可计算的,尽管在许多实际情况下可以近似,并且在某些情况下商业压缩程序接近理论最优(Cilibrasi&Vitányi 2005)。

  • 算法复杂性是一种渐近度量(即,它给出一个正确的值,直到一个常数)。在某些情况下,这个常数的值对于实际目的来说是禁止的。

  • 尽管最短理论总是在随机性缺乏方面最好的理论,但数据集的增量压缩通常不是一种好的学习策略,因为随着压缩率的增加,随机性缺乏并不单调减少(Adriaans&Vitányi 2009)。

  • 信息论算法提供的定义的普遍性取决于通用图灵机的概念的普遍性,因此最终取决于 Church-Turing-Thesis 的解释。

  • 对象的科尔莫哥洛夫复杂度不考虑计算对象所需的时间。在这个背景下,Levin 提出了一种变体的科尔莫哥洛夫复杂度,对计算时间进行惩罚(Levin 1973, 1984):

    Levin 复杂度是字符串 x 的长度 l(p)和最小程序 p 在通用图灵机 U 上运行时产生 x 的计算时间的对数之和,表示为 U(p)=x:

    Kt(x):=minp{l(p)+log(time(p)),U(p)=x}

信息论算法已经迅速被接受为信息的基本理论。Cover 和 Thomas(2006)在信息论中的著名介绍中指出:“……我们认为 Kolmogorov 复杂性(即 AIT)比 Shannon 熵更基本”(2006: 3)。

索洛蒙诺夫(1997)和 Chaitin(1987)已经提出了算法复杂性理论是人工智能(和知识理论)的基础的想法。一些作者辩称数据压缩是统治人类认知的一般原则(Chater&Vitányi 2003; Wolff 2006)。Hutter(2005, 2007a, b)认为索洛蒙诺夫的形式化和完整的理论基本上解决了归纳问题。Hutter(2007a)和 Rathmanner&Hutter(2011)列举了关于归纳的大量经典哲学和统计问题,并声称索洛蒙诺夫的理论解决或避免了所有这些问题。也许是因为其技术性质,这个理论在哲学界基本上被忽视了。然而,它作为二十世纪信息论最基本的贡献之一而脱颖而出,并且在一些哲学问题上显然是相关的,比如归纳问题。

5. 系统考虑

从数学角度来看,信息与测量具有有限但无限维度的系统类的广泛属性相关联(粒子系统、文本、代码、网络、图形、游戏等)。这表明可以对各种信息理论进行统一处理。在《信息哲学手册》中,区分了三种不同形式的信息(Adriaans & van Benthem 2008b):

信息-A: 知识,逻辑,以信息化的答案传达的内容

信息-B: 概率性的,信息论的,以量化方式测量的

信息-C: 算法,代码压缩,定量测量

由于最近的发展,信息-B(香农)和信息-C(科尔莫哥洛夫)之间的联系已经得到了相当好的理解(Cover&Thomas 2006)。本文提供的历史材料表明,对信息-A(逻辑,知识)的反思在历史上比人们一直以来所知道的更加交织在一起。逻辑实证主义的研究计划可以事后被描述为试图将逻辑的可能世界解释与概率推理相结合(Carnap 1945, 1950; Popper 1934; 最近的方法见 Hutter 等人 2013)。现代设计贝叶斯认识论的尝试(Bovens&Hartmann 2003)似乎没有意识到二十世纪上半叶的研究工作。然而,将信息-A 和信息-B 统一起来的尝试似乎是可行的(Adriaans 2020)。热力学和信息论之间的联系也变得更加紧密,其中包括 Gell-Mann&Lloyd(2003)的工作(另见:Bais 和 Farmer 2008)。Verlinde(2011, 2017)甚至提出了将重力归约为信息的理论(请参阅有关信息处理和热力学熵的条目)。

5.1 信息哲学作为数学哲学的延伸

关于信息概念的主要定义,如 Shannon 信息、Kolmogorov 复杂性、语义信息和量子信息,当我们将其解释为数学哲学的延伸时,可以采用统一的方法来研究信息哲学。对于类似“什么是数据?”和“什么是信息?”这样的问题的回答,可以从对类似“什么是集合?”和“什么是数字?”这样相关问题的回答中得出。回顾过去,我们可以观察到,数学哲学中的许多悬而未决的问题都围绕着信息的概念。

如果我们看一下信息和计算的基础,有两个关键概念:数据集和算法的概念。一旦我们将这些概念作为基本概念接受,剩下的关于数据和计算的理论就会自然展开。在这里,人们可以采取自己喜欢的认识论或形而上学立场,但这并不真正影响计算和信息哲学中的基础问题。人们可以持有形式主义、柏拉图主义或直觉主义的数学宇宙观(参见数学哲学条目),仍然可以就有效计算的基本概念达成一致。由于计算理论具有有限性和建构性的特点,它似乎更多地生活在这些理论重叠的共同基础上。

5.1.1 信息作为自然现象

信息作为一个科学概念,在我们日常处理自然事物时自然而然地出现。例如,用棍子测量物体的大小,用手指数数,用一根绳子画一条直线等普通的行为。这些过程是抽象概念(如长度、距离、数字、直线)的锚点,构成了科学的基石。这些概念根植于我们对现实的具体经验,保证了它们的适用性和实用性。信息处理的最早痕迹围绕着计数、管理和会计的概念发展起来。

例子:计数棍棒 信息中最基本的计量设备之一是使用计数棒进行一元计数。计数棒已经在大约 2 万年前开始使用。当一个假设的史前猎人杀死一只鹿时,他可以通过在一块木头上划下一个划痕“|”来记录这个事实。这样的棒子上的每一笔都代表一个物体/项目/事件。一元计数的过程是基于将符号连接成序列的基本操作。这种测量方法说明了信息广度概念的一个原始版本:序列的长度是计数的物品数量的度量。请注意,这种顺序计数的过程是非交换和非结合的。如果“|”是我们的基本符号,⊕ 是我们的连接运算符,那么一系列符号的形式为:

((…(|⊕|)…)⊕|)⊕|)

新符号总是连接在序列的末尾。

这个例子有助于理解在信息分析中上下文的重要性。一个划痕在一根棍子上本身可能没有任何意义,但是一旦我们决定这样的划痕代表另一个对象或事件,它就成为一个有意义的符号。当我们在这样的上下文中操作它时,我们处理信息。原则上,一个简单的划痕可以代表我们喜欢的任何事件或对象:符号是约定俗成的。

定义:符号是指示、表示或被理解为代表一个思想、对象或关系的标记、符号或词语。

符号是将符号处理系统与世界联系在一起的语义锚点。请注意元陈述:

符号“|”表示对象 y。

如果为真,则指定语义信息:

  • 它是良构的:该语句具有特定的语法。

  • 这是有意义的:只有在刻意制作的情况下,例如在计数棒或岩石上刻上“|”来标记一个明确的事件时,它才有意义。

  • 这是真实的。

符号操作可以采取多种形式,并不限于序列。在史前时代可以找到许多不同形式的信息处理的例子。

示例:在美索不达米亚数绵羊 随着城市化进程的推进,早期的会计系统在公元前 8000 年左右在美索不达米亚出现,使用粘土代币来管理牲畜(Schmandt-Besserat 1992)。不同形状的代币用于不同类型的动物,例如绵羊和山羊。注册后,代币被装在一个球形的粘土容器中,容器外部有表示其内容的标记。容器被烘烤以使注册永久化。因此,早期的书写形式出现了。公元前 4000 年后,代币被串联在一根绳子上以保持顺序。

从集合到字符串的历史转变非常重要。这是一种更复杂的信息编码形式。从形式上讲,我们可以区分几个不同复杂程度的代币组合。

  • 一个容器中的无序相似令牌集合。这代表一个集合。令牌可以在容器中自由移动。令牌的体积是唯一相关的特性。

  • 一个容器中不同类型的无序令牌集合。这代表一个所谓的多重集合。体积和频率都是相关的。

  • 一个字符串上的有序类型令牌集合。这代表一个符号序列。在这种情况下,字符串的长度是一个相关的特性。

5.1.2 符号操作和广泛性:集合、多重集合和字符串

符号序列编码比多重集合包含更多信息,而多重集合比集合更具表达性。因此,写作本身的出现可以被视为寻找行政数据最具表达性的表示形式的探索。在衡量信息的消息序列中,重复、顺序和分组等方面的特征是重要的。信息的广泛方面可以通过这些结构操作来研究(参见子结构逻辑词条)。我们可以通过在符号序列上定义的运算符来研究消息集合。

定义:假设 m、n、o、p 等为符号,⊕ 为张量或连接运算符。我们定义了序列的类别:

  1. 任何符号都是一个序列

  2. 如果 α 和 β 是序列,则(α⊕β)是一个序列

对于序列,我们在符号连接的层面上定义了以下基本属性:

  1. 收缩性:(m ⊕m)=m。收缩性破坏了序列中关于频率的信息。物理解释:当两个相同符号连接在一起时,它们的两个出现可以合并为一个出现。

  2. 可交换性:(m ⊕n)=(n ⊕ m)。可交换性破坏了序列中关于顺序的信息。物理解释:当符号连接在一起时,它们可以交换位置。

  3. 结合性:(p⊕(q⊕r))=((p⊕q)⊕r)。结合性破坏了序列中关于嵌套的信息。物理解释:当符号连接在一起时,它们可以重新分组。

观察:具有收缩性、交换性和结合性的序列系统的行为类似于集合。考虑方程:

{p,q}∪{p,r}={p,q,r}

当我们将集合建模为两个序列 (p⊕q) 和 (p⊕r) 时,相应的蕴含关系是:

(p⊕q),(p⊕r)⊢((p⊕q)⊕r)

证明:

((p⊕q)⊕(p⊕r))连接((q⊕p)⊕(p⊕r))交换律(((q⊕p)⊕p)⊕r)结合律((q⊕(p⊕p))⊕r)结合律((q⊕p)⊕r)收缩((p⊕q)⊕r)交换律

集合、多重集合和字符串的结构方面可以用这些属性来表述:

集合:在收缩、交换律和结合律下,消息序列会合并成集合。集合是一个对象的集合,其中每个元素只出现一次:

{a,b,c}∪{b,c,d}={a,b,c,d}

并且对于顺序无关的情况:

{a,b,c}={b,c,a}。

集合与我们日常的信息概念相关联,作为新的、以前未知的信息。只有在收到之前未见过的消息时,我们才会更新我们的集合。这种信息的概念在顺序和频率上都是遗忘的。消息的集合无法重建。这种行为与集合的外延性概念相关联:我们只关心元素的相等性,而不关心频率。

多重集合:在可交换性和结合性下,消息序列会合并成多重集合。多重集合是一个对象的集合,其中相同的元素可以出现多次。

{a,b,c}∪{b,c,d}={a,b,b,c,c,d}

并且顺序不重要:

{a,b,a}={b,a,a}.

多重集与香农信息中定义的资源敏感信息概念相关联。我们对消息的频率感兴趣。这个概念对于顺序是遗忘的。每次收到消息时,我们都会更新我们的集合,但我们会忘记序列的结构。这种行为与信息的广泛性概念相关联:我们既对元素的相等性感兴趣,也对频率感兴趣。

序列:序列是可关联的。序列是有序的多重集:aba≠baa。消息的整个序列结构被存储。序列与科尔莫戈洛夫复杂性相关联,科尔莫戈洛夫复杂性定义为符号序列的长度。

集合可以被解释为物体可以自由移动的空间。当相同的物体彼此接近时,它们会合并成一个物体。多重集合可以被解释为物体可以自由移动的空间,但物体的总数保持不变。这是广义的扩展性概念:空间的总体积保持不变,但内部结构可能不同。序列可以被解释为物体具有固定位置的空间。一般来说,序列包含比派生的多重集合更多的信息,而多重集合包含比关联集合更多的信息。

观察:序列和多重集合的相互作用可以被解释为信息范式中普遍存在的蜡块的可塑性的形式化。不同的序列(形式)是相同多重集合(物质)的表示。蜡块的体积(字符串的长度)是恒定的,因此是可以在蜡块中表示的信息量的度量(即符号序列)。从量子物理学的角度来看,蜡块的稳定性似乎是一种 emergent property:当大量的物体被操纵时,原子层面上的物体的统计不稳定性似乎会平衡。

5.1.3 集合和数字

数学中的集合概念被认为是基础的。任何可识别的离散对象的集合都可以被视为一个集合。当我们分析基本陈述时,集合论与信息概念之间的关系变得清晰:

e∈A

这表示对象 e 是集合 A 的元素。请注意,如果这个陈述是真的,它代表了一段语义信息。它是良构的、有意义的和真实的(参见关于语义信息概念的条目)。信息概念已经在数学的基本构建模块中发挥作用。哲学问题“集合是什么?”即 ti esti 问题的答案,是由策梅洛-弗兰克尔公理(参见集合论条目)隐含地确定的,其中第一个公理是外延性公理:

如果两个集合具有相同的元素,则它们是相等的。

数学概念是通过一组公理隐含地定义的这一观点是由希尔伯特提出的,但并不是没有争议的(参见弗雷格-希尔伯特争议条目)。定义是隐含的意味着我们只能通过示例来了解集合的概念,而无法制定任何定义它们的正面谓词。集合的元素不一定是物理的,也不一定是抽象的,空间的或时间的,简单的或真实的。唯一的前提是能够对成员资格做出明确的判断。这种对集合概念的隐含定义并不是没有问题的。我们可能定义了一些乍一看似乎是合适的集合对象,但经过仔细检查后发现它们内部是不一致的。这是以下事实的基础:

罗素悖论:这个悖论激发了对数学基础的大量研究,它是与克里特岛哲学家埃皮米尼德斯(公元前 6 世纪)所说的克里特人总是说谎的悖论的变体。这些悖论的关键在于将普遍性、否定和自指的概念结合起来。

任何不是克里特人的人都可以说克里特人总是说谎。对于克里特人来说,这是不可能的,因为这个陈述具有普遍的否定自指性质。如果这个陈述是真的,他就没有说谎,这使得这个陈述是不真实的:一个真正的自相矛盾的悖论。沿着同样的思路,罗素提出了所有不是自身成员的所有集合的概念,其成员资格无法确定。显然,所有集合的集合在集合论中是一个不可接受的对象。一般来说,在哲学和数学中,系统内部对自身的陈述的验证是有限的。(有关进一步讨论,请参见罗素悖论的条目。)

集合的概念的隐含定义意味着类本身是开放的。对于某些数学对象的定义,是否定义了一个集合还是高度有争议的。

现代数学哲学始于弗雷格-罗素的数论理论(弗雷格 1879 年,1892 年,古德斯坦 1957 年,参见替代公理集合论的条目)。如果我们接受对象类的概念是有效和基本的,以及类之间的一一对应的概念,那么我们可以将数字定义为等势类的集合。

定义:如果存在一个一一对应的函数 f:A→B,使得对于每个 a∈A,都有一个且仅有一个 f(a)∈B,则称集合 A 和 B 是等势的,记作 A∼B。

任何一组,比如四个,对象都可以成为数字 4 的表示,并且对于任何其他一组对象,我们可以通过与我们的示例集合建立一一对应来确定其属于定义数字 4 的等价类。

定义:如果 A 是一个有限集合,则 SA={X∣X∼A}是与 A 等势的所有集合的类。相关的概括操作是基数函数:|A|=SA={X∣X∼A}=n。这定义了与集合 A 相关联的自然数|A|=n∈N。

我们可以通过选择适当的数学示例对象来重构数学宇宙的大部分内容,从假设存在一个表示数字 0 的单一唯一空集 ∅ 开始。这使得我们存在一个只有一个成员{∅}来表示数字 1,并通过重复这个构造,{∅,{∅}}来表示 2,整个自然数集 N 出现。然后,基于皮亚诺公理,定义了初等算术:

  1. 零是一个数字。

  2. 如果 a 是一个数字,那么 a 的后继是一个数字。

  3. 零不是任何数的后继。

  4. 如果两个数的后继相等,那么这两个数本身也相等。

  5. (归纳公理)如果一个数集 S 包含零,并且还包含 S 中每个数的后继,那么每个数都在 S 中。

数学宇宙的片段是相对无争议的,Platonists 和 constructivists 可能会在其基本优点上达成一致。基于 Peano 的公理,我们可以定义更复杂的函数,如加法和乘法,它们在 N 上是封闭的,而逆函数减法和除法则不封闭,并导致整数集 Z 和有理数集 Q。

5.1.4 用数字测量信息

我们可以通过一个未指定的函数 I(n)来定义数字 n 的信息概念。我们观察到加法和乘法指定了多重集合:它们都是非收缩的、可交换的和可结合的。假设我们将张量运算符 ⊕ 解释为乘法 ×。自然而然地,我们可以用加法来定义 I(m×n)的语义。如果我们得到了消息 m 和 n,那么组合消息中的总信息量是各个消息中信息量的总和。这导致了以下约束条件:

定义:可加性约束:

I(m×n)=I(m)+I(n)

此外,我们希望较大的数字包含比较小的数字更多的信息,这给出了一个:

定义:单调性约束:

I(m)≤I(m+1)

我们还希望选择一个特定的数 a 作为我们的基本计量单位:

定义:规范化约束:

I(a)=1

以下定理是由 Rényi(1961)提出的:

定理:对数是唯一满足可加性、单调性和归一化的数学运算。

观察:对数 logan 是一个数 n 中关于信息概念的直观表达。当我们决定 1)多重集合是广义性概念的正确形式化,2)乘法是正确的操作来表达可加性时,那么对数是唯一满足我们约束条件的测量函数。

我们定义:

定义:对于所有自然数 n∈N+

I(n)=logan.

  • 当 a=2 时,我们的计量单位是比特

  • 对于 a=e(即欧拉数),我们的测量单位是 gnat

  • 对于 a=10,我们的测量单位是 Hartley

5.1.5 在一组数字中测量信息和概率

对于有限集合,我们现在可以指定当我们知道集合的某个元素时,相对于整个集合而言我们获得的信息量。

定义:假设 S 是一个有限集合,我们有:

e∈S

然后,

I(e∣S)=loga|S|

即,集合的基数的对数。

集合越大,搜索越困难,当我们找到我们要找的东西时,我们获得的信息越多。相反,如果没有任何进一步的信息,选择 S 的某个元素的概率是 pS(x)=1|S|。相关函数被称为哈特利函数:

定义:如果从有限集合 S 中随机均匀地选择一个样本,那么在结果已知之后所揭示的信息由哈特利函数(Hartley 1928)给出:

H0(S)=loga|S|

这些定义的组合给出了一个将条件信息和概率概念联系在一起的定理:

统一定理:如果 S 是一个有限集合,则

I(x∣S)=H0(S)

对于集合 S 的元素 x 的信息,条件是等于我们在均匀分布下选择该元素 x 的概率的对数,这是我们在知道集合但不知道要选择哪个元素时的无知程度的度量。

观察:请注意,Hartley 函数统一了由 Boltzmann 定义的熵的概念 S=klogW,其中 W 是系统 S 的微观状态集合的基数,与 Shannon 信息的概念 IS(x)=−logp(x)。如果我们将 S 视为一组消息,则在均匀分布下选择集合中的元素 x(即从 S 获取消息)的概率为 1|S|。H0(S)也被称为 S 的 Hartley 熵。

使用这些结果,我们定义有限集合的子集中的条件信息量为:

定义:如果 A 是一个有限集合,B 是 A 的任意子集 B⊂A,其中|A|=n 且|B|=k,我们有:

I(B∣A)=loga(nk)

这只是我们对信息的基本定义的一个应用:具有大小为 k 的 A 的子集类的基数是(nk)。

概率概念的形式属性由概率的科尔莫戈洛夫公理规定:

定义:P(E)是事件 E 发生的概率 P。(Ω,F,P),其中 P(Ω)=1,是一个概率空间,具有样本空间 Ω,事件空间 F 和概率测度。

让 P(E)是事件 E 发生的概率 P。让(Ω,F,P),其中 P(Ω)=1,是一个概率空间,具有样本空间 Ω,事件空间 F 和概率测度 P。

  1. 事件的概率是一个非负实数

  2. 有一个度量单位。事件空间中的一个事件发生的概率是 1:P(Ω=1)

  3. 概率在独立集合上是可加的:P(∞⋃i=1Ei)=∞∑i=1P(Ei)

其中一个结果是单调性:如果 A⊆B 意味着 P(A)≤P(B)。请注意,这与信息概念的可加性定义相同。在亚原子级别上,可加性的科尔莫戈洛夫公理失去了其有效性,取而代之的是一个更微妙的概念(见第 5.3 节)。

5.1.6 统一的展望

从哲学的角度来看,这种构建的重要性在于它导致了一个本体论中立的信息概念,该概念基于一个非常有限但稳健的公理假设基础。

  • 它是还原主义的,因为一旦接受了类和映射等概念,信息的定义在更复杂的数学概念的背景下自然而然地出现。

  • 它是普遍的,因为集合的概念是普遍而开放的。

  • 它是语义的,因为集合本身就是一个语义概念。

  • 它将各种概念(集合、基数、数字、概率、广度、熵和信息)统一在一个连贯的概念框架中。

  • 从本体论上讲,集合或类的概念并不意味着对其可能成员的本体论约束。

这表明 Shannon 的信息论和 Boltzmann 的熵概念根植于更基本的数学概念。消息集合或微观状态集合的概念是更一般数学概念集合的特殊化。信息的概念已经存在于这个更基本的层次上。尽管仍有许多未解之谜,特别是在信息论和物理学之间的关系的背景下,对于信息统一理论的展望现在比二十一世纪初更加乐观。

5.1.7 信息处理和信息流动

通过对数的术语定义信息量,我们可以根据数学函数的处理信息能力对其进行分类。函数的信息效率是输入信息量与输出信息量之间的差异(Adriaans 2021 [OIR])。它可以帮助我们衡量信息在一组函数中的流动情况。我们使用 f(¯¯¯x) 来表示 f(x1,x2,…,xk) 的简写形式:

定义:函数的信息效率:设 f:Nk→N 是一个具有 k 个变量的函数。我们有:

  • 输入信息 I(¯¯¯x) 和

  • 输出信息 I(f(¯¯¯x))。

  • 表达式 f(¯¯¯x) 的信息效率为 δ(f(¯¯¯x))=I(f(¯¯¯x))−I(¯¯¯x)。

  • 如果一个函数 f 是信息保持的,那么 δ(f(¯¯¯x))=0,即它包含了输入参数中的确切信息量,

  • 如果一个函数 f 是信息丢弃的,那么 δ(f(¯¯¯x))<0,并且

  • 如果一个函数 f 具有恒定的信息量,那么 δ(f(¯¯¯x))=c。

  • 如果 δ(f(¯¯¯x))>0,则它是信息扩展。

一般来说,确定性信息处理系统不会创建新的信息。它们只是对信息进行处理。关于信息和计算之间相互作用的以下基本定理是由 Adriaans 和 Van Emde Boas(2011)提出的:

定理:确定性程序不会扩展信息。

这符合 Shannon 理论和 Kolmogorov 复杂性。确定性程序的结果始终相同,因此结果的概率为 1,在 Shannon 理论下提供 0 位新信息。同样对于 Kolmogorov 复杂性,程序的输出永远不会比程序本身的长度加上一个常数更复杂。这在 Adriaans 和 Van Emde Boas(2011)中进行了深入分析。在确定性世界中,如果:

program(input)=outputthenI(output)≤I(program)+I(input)

信息的本质是不确定性,发生概率为“1”的消息不包含任何信息。计算该数字可能需要很长时间的事实与计算是否停止无关。无限计算在 Scott 域理论中进行了研究(Abramsky&Jung 1994)。

估计基本函数的信息效率并不容易。原始递归函数(参见递归函数条目)有一个信息扩展操作,即增量操作,一个信息丢弃操作,选择操作,其他操作都是信息中性的。更复杂操作的信息效率由计数和选择的组合定义。从信息效率的角度来看,基本算术函数是描述具有相同结果但具有不同计算历史的复杂函数族。

一些算术操作会扩展信息,一些操作具有恒定的信息,而一些操作会丢弃信息。在执行确定性程序时,信息的扩展可能会发生,但是,如果程序是有效的,则输出的描述性复杂性是有限的。信息的流动由操作类型的连续和操作复杂性与变量数量之间的平衡决定。

我们简要讨论了两个基本递归函数在两个变量上的信息效率及其编码可能性:

添加 添加与信息存储相关,以符号序列或字符串的形式。对于大于 1 的自然数,它是信息丢失。我们有 δ(a+b)<0,因为 log(a+b)<loga+logb。然而,加法具有信息保留的特性。如果我们将具有不同对数单位的数字相加,我们可以从结果数字中重构单位的频率:232=200+30+2=(2×102)+(3×101)+(2×100)=100+100+10+10+10+1+1

由于建筑块中的信息,100、10 和 1,给出了数字表示,因此仍然可以重构。这意味着自然数原则上以 k 的幂的加法编码两种类型的信息:值和频率。我们可以利用这一观点,在单个自然数中编码复杂的类型信息。基本上,它允许我们在长度为 ⌈logkn⌉ 的符号字符串中编码任何自然数,该字符串指定了一个量化的度量,用于表示数字中信息量的多少,即其代码的长度。有关位置制度对信息理论的重要性的历史分析,请参见第 3.3 节。

乘法在定义上是信息保持的。我们有:δ(a×b)=0,因为 log(a×b)=loga+logb。然而,乘法并不保留其输入中的所有信息:操作的顺序丢失了。这正是我们希望从表征广义度量的运算符中得到的:只有数字的广义特性得以保留。如果我们将两个数字 3×4 相乘,那么结果 12 可以让我们重构原始计算,只要我们将所有组成部分都简化为它们最基本的值:2×2×3=12。这导致了一个观察结果,即一些数字作为其他数字的信息构建块,这给了我们素数的概念:

定义:质数是只能被自身或 1 整除的数。

质数的概念引出了算术基本定理:

定理:大于 1 的每个自然数 n 都是质数集合 Ap 的乘积,而且这个集合对于 n 是唯一的。

算术基本定理可以看作是关于信息保持的定理:对于每个自然数,存在一个包含完全相同信息量的自然数集合。一个数的因子形成了一个所谓的多重集合:一个集合可以包含多个相同元素的集合:例如,数 12 定义了多重集合{2,2,3},其中数字 2 出现了两次。这使得多重集合成为编码信息的强大工具,因为它既编码了定性信息(即数字 2 和 3),又编码了定量信息(即数字 2 出现两次,数字 3 只出现一次)。这意味着自然数在质数乘法方面也编码了两种类型的信息:值和频率。我们可以再次利用这一洞察力,将复杂的类型信息编码为单个自然数。

5.1.8 信息、质数和因子

基于加法幂的位置制数表示法直观且易于处理,构成了大多数数学函数的基础。但是,基于乘法的编码系统并非如此。在数学哲学和信息的概念的背景下,许多未解决的问题出现在算术基本定理和质数的概念中。我们给出一个简短的概述:

素数集的(不)规则性。 自古以来人们就知道素数是无穷多的。证明很简单。假设素数集 P 是有限的。现在将 P 中的所有元素相乘并加 1。得到的数不能被 P 中的任何成员整除,所以 P 是不完整的。素数定理给出了素数在自然数集合中的间隔的密度估计(参见《大英百科全书》中的素数定理条目 [ OIR])。它指出,大小为 n 的自然数集合中的素数之间的间隔大约是 lnn,其中 ln 是以欧拉数 e 为底的自然对数。对密度估计的改进是由所谓的黎曼猜想给出的,该猜想于 1859 年由黎曼提出(Goodman 和 Weisstein 2019 [ OIR]),被普遍认为是数学中最深的未解问题,尽管大多数数学家认为该猜想是正确的。

因式分解的(不)高效性。 由于乘法保留信息,所以函数在一定程度上是可逆的。找到某个自然数 n 的唯一素数集合的过程称为因数分解。观察到在素数的定义中使用术语“仅”意味着这实际上是一种否定性的描述:如果不存在 1 和 n 之间的数能够整除 n,则 n 是素数。这为我们提供了一个有效的因数分解过程(只需尝试将 n 除以 1 和 n 之间的所有数),但这样的技术并不高效。

如果我们使用位置制来表示数字 n,那么通过试错法识别 n 的因数的过程将需要一个确定性计算机程序最多 n 次尝试,这将导致计算时间与数字表示的长度 ⌈logn⌉ 呈指数关系。通过试错法对一个相对简单的、例如两百位数的数字进行因数分解,这个数字编码了一个相当小的消息,可能需要一个整个宇宙大小的计算机的时间超过自宇宙大爆炸以来的时间。因此,尽管在理论上可行,这样的算法在实际中是完全不实用的。

因式分解可能是所谓的陷门单向函数的一个例子,它在一方面很容易计算,但在其逆过程中非常困难。因式分解是否真的困难,仍然是一个悬而未决的问题,尽管大多数数学家认为这个问题很难。请注意,在这个背景下,因式分解可以被看作是解码消息的过程。如果因式分解很困难,它可以被用作加密技术。传统的加密技术,如 RSA,是基于用大素数进行编码的。假设 Alice 有一个编码为大数 m 的消息,并且她知道 Bob 可以访问一个大素数 p。她将数字 p×m=n 发送给 Bob。由于 Bob 知道 p,他可以通过计算 m=n/p 轻松重构 m。由于因式分解很困难,任何接收到消息 n 的其他人都很难重构 m。

素性测试与因式分解。 尽管目前尚不知道在经典计算机上存在有效的因式分解技术,但有一种有效的算法可以决定一个数是素数还是非素数:所谓的 AKS 素性测试(Agrawal 等人,2004 年)。因此,我们可能知道一个数不是素数,但我们仍然无法访问它的因子集合。

经典计算与量子计算。 理论上,使用 Shor 算法(Shor 1997)在量子计算机上进行因式分解是高效的。该算法在确定性经典程序中嵌入了非经典的量子子程序。量子比特的集合可以用复数高维向量空间来建模,原则上允许我们分析 n 个对象的集合之间的指数级 2n 个相关性。目前尚不清楚更大的量子计算机是否稳定到足以支持实际应用,但量子级别的世界具有相关的计算可能性已经不容置疑,例如,量子随机生成器已经作为商业产品可用(参见维基百科上的硬件随机数生成器条目 [OIR])。一旦可行的量子计算机可用,几乎所有当前的加密技术都将变得无用,尽管它们可以被量子加密技术的版本所取代(参见量子计算的条目)。

我们可以对集合 N 进行无限多的观察,这些观察不直接由公理推导出来,但涉及大量的计算。

5.1.9 算术的不完备性

在 1931 年的一篇里程碑式的论文中,库尔特·哥德尔证明了任何包含初等算术的一致形式系统在根本上是不完备的,即它包含无法在系统内证明的真实陈述。在哲学背景下,这意味着足够丰富以包含初等数学的形式系统的语义不能用系统内的数学函数来定义,即存在一些包含关于系统的语义信息的陈述,这些陈述是良构的、有意义的和真实的,但不能被证明。

递归函数的概念是核心(参见递归函数条目)。这样的函数是在数字上定义的。哥德尔对递归函数的概念最接近我们在日常生活中与计算相关的概念。基本上,它们是在自然数上操作的初等算术函数,如加法、减法、乘法和除法,以及所有可以在这些函数之上定义的其他函数。

我们给出证明的基本结构。假设 F 是一个形式系统,具有以下组成部分:

  • 它有一个有限的符号集合

  • 它有一个语法,使我们能够将符号组合成良好形式的公式

  • 它具有一组确定性规则,允许我们从给定的陈述中推导出新的陈述

  • 它包含由 Peano 公理规定的基本算术(参见上面的 5.1.3 节)。

此外,假设 F 是一致的,即它永远不会从真陈述中推导出假陈述。在他的证明中,哥德尔利用了乘法的编码可能性来构造系统的图像(请参阅关于哥德尔不完备性定理的条目中关于哥德尔编号的讨论)。根据算术的基本定理,任何数都可以唯一地分解为其质数。这定义了一个多重集合和数字之间的一对一关系:基于多重集合{2,2,3},可以构造数字 12,如 12=2×2×3,反之亦然。这使我们能够将任何符号序列编码为一个特定的个体数字,具体方法如下:

  • 给每个符号分配一个唯一的数字

  • 素数确定符号在字符串中的位置

  • 在素因子集合中相同素数的实际数量定义了符号

在此基础上,我们可以将任何符号序列编码为所谓的哥德尔数,例如,数字:

2×3×3×5×5×7=3150

编码了多重集合{2,3,3,5,5,7},它代表了在假设 a=1,b=2 的情况下的字符串“abba”。通过这个观察,满足了接近导致罗素悖论的条件:基本算术本身足够丰富,可以表达:普遍性、否定和自我引用。

由于算术是一致的,这不会导致悖论,而是导致不完备性。哥德尔通过与说谎者悖论相关的构造证明了这样一个系统必须包含一些真实但无法证明的陈述:存在形式为“我是无法证明的”真实句子。

定理:任何包含基本算术的形式系统都是根本不完备的。它包含一些真实但无法证明的陈述。

在信息哲学的背景下,数学的不完备性是自然数编码信息的丰富可能性的直接结果。原则上,任何确定性形式系统都可以用基本算术函数来表示。因此,如果这样一个系统本身包含算术作为子系统,它就包含了一个无限的自同态链(即,它自身的映像)。这样一个系统能够推理其自身的函数和证明,但由于它是一致的(因此在系统内部无法构造悖论),它必然是不完备的。

5.2 信息和符号计算

递归函数是在自然数上定义的抽象关系。原则上,它们可以在没有任何关于空间和时间的参考下定义。这些函数必须与我们用于计算它们的操作区分开来。这些操作主要取决于我们为它们选择的符号表示的类型。我们可以将数字七表示为一元数|||||||,二进制数 111,罗马数字 VII,或阿拉伯数字 7,根据我们的选择,可以使用其他类型的顺序符号操作来计算两加五等于七,可以表示为:||+|||||=|||||||10+101=111II+V=VII2+5=7 因此,我们可以将这四个句子看作是同一个数学真理的四个陈述,或者是指定四个不同操作结果的陈述。

观察:我们可以从至少两个不同的角度研究计算的概念。在这些解释下,符号的语义是不同的。

  • 递归函数范式研究了以自然数为基础的抽象函数在空间和时间之外的计算。当被解释为数学事实时,10+101=111 中的 + 符号表示数学函数加法,= 符号表示相等关系。

  • 符号操作范式研究了在空间表示的符号串上的顺序操作进行计算。当被解释为操作时,10+101=111 中的 + 符号表示符号操作的顺序过程的输入,= 符号表示该操作的结果或输出。这样的算法可以具有以下形式:10+101111

这导致了以下初步定义:

定义:宏观尺度上的确定性计算可以定义为根据确定性规则对离散对象进行局部、顺序的操作。

在自然界中,有许多其他方法来执行这样的计算。可以使用算盘,研究化学过程,或者只是在海滩上操作一系列的鹅卵石。我们操作的对象是离散的,加上数据集是自指的观察,这意味着数据域原则上是戴德金无穷的:

定义:如果集合 S 存在一个双射 f:S→S'到 S 的真子集 S'⊂S,则集合 S 是戴德金无穷的。

由于数据元素是离散且有限的,数据域将是可数无限的,因此与自然数集同构。

定义:如果存在一个双射与自然数集 N,则无限集合 S 是可数的。

对于无限可数集合,信息的概念定义如下:

定义:假设 S 是可数且无限的,函数 f:S→N 定义了一个一一对应关系,那么:I(a∣S,f)=logf(a),即给定 f 中 a 在 S 中的索引的信息量。

注意,对应关系 f 是明确指定的。一旦在现实世界中为一类对象定义了这样的索引函数,对这些对象的操作可以被解释为一种计算形式。

5.2.1 图灵机

一旦我们选择了一组有限的符号和操作规则,系统就开始产生关于世界的陈述。

观察:元句:

符号“0”是表示零的符号。

指定与集合中的语句 e∈A 相同意义的语义信息(参见第 6.6 节)。该语句是良构的、有意义的和真实的。

我们可以在抽象层面上研究符号操作,而不涉及任何语义含义。这样的理论由艾伦·图灵(1912-1954)发表。图灵发展了一种关注数学家实际执行的符号操作的通用计算理论(图灵,1936 年)。对他来说,计算机是一个真实的数学家坐在桌子后面的抽象,接收写在进盘(输入)上的问题,根据固定规则解决问题(过程),然后将问题放在出盘(输出)上等待取走。

图灵首次提出了这样一种关于计算的通用理论的概念。他提出了在无限纸带上操作的抽象机器,纸带上有三个符号:空白(b)、零(0)和一(1)。因此,图灵机的数据域是相关纸带配置的集合,可以与由零和一组成的二进制字符串的集合相关联。这些机器可以在纸带上读写符号,并且它们有一个转换函数,确定它们在各种条件下的动作。在抽象层面上,图灵机的操作类似于函数。

定义:如果 Ti 是一个索引为 i 的图灵机,x 是作为输入的一串由 0 和 1 组成的纸带,则 Ti(x)表示机器停止后的纸带配置,即其输出。

图灵机有无限多个。图灵发现存在所谓的通用图灵机 Uj,可以模拟任何其他图灵机 Ti。

定义:表达式 Uj(¯¯¯¯¯Tix)表示通过 Uj 对机器 Tj 的自限定描述 ¯¯¯¯¯Ti 进行计算 Ti(x)的仿真结果。

自我界定的代码是必要的,因为 Uj 的输入被编码为一个字符串 ¯¯¯¯¯Tix。通用机器 Uj 将输入字符串 ¯¯¯¯¯Tix 分解为其两个组成部分:机器的描述 ¯¯¯¯¯Ti 和该机器的输入 x。

一般计算系统的自指性质使我们能够构建模拟其他机器的机器。这表明可能存在一个“超级机器”,它模拟所有可能的机器上的所有可能的计算并预测它们的结果。图灵使用一种称为对角线化的技术,通过分析运行在所有可能机器的描述上的所有可能机器的枚举,证明了这样的机器是不存在的。更正式地说:

定理:不存在一台图灵机,可以预测任何其他图灵机在特定输入上是否停止。

这意味着对于某个通用机器 Ui,在有限时间内停止的输入集是不可计算的。近年来,图灵机上的无限计算的概念也得到了研究(Hamkins 和 Lewis 2000 年)。并非每台机器都会在每个输入上停止,但在某些情况下,无限计算可以计算出有用的输出(考虑圆周率的无限展开)。

定义:停机集是图灵机 Ti 和输入 x 的组合的集合,使得计算 Ti(x)停止。

通用图灵机的存在表明该类别体现了通用计算的概念:可以在特定图灵机上执行的任何计算也可以在任何其他通用图灵机上执行。这是通用可编程计算机概念的数学基础。这些观察结果对信息理论有影响:某些信息度量,如科尔莫哥洛夫复杂度,是定义的,但不可计算。

在图灵机类中存在不可计算函数的证明类似于哥德尔对于初等算术的不完全性结果。由于图灵机的定义是为了研究计算的概念,因此包含了初等算术。图灵机类本身足够丰富,可以表达:普遍性、否定和自指。因此,图灵机可以模拟关于自身的普遍否定陈述。图灵的不可计算性证明也受到了说谎者悖论的启发,而停在某个输入上的机器的概念类似于存在某个陈述的证明的概念。同时,图灵机满足哥德尔定理的条件:它们可以被建模为包含初等皮亚诺算术的形式系统 F。

观察:由于它们可以相互模拟,递归函数范式和符号操作范式具有相同的计算能力。在一个范式中可以计算的任何函数在另一个范式中也可以根据定义计算。

这个洞察可以推广到其他情况:

定义:如果一个无限集合的计算函数具有与图灵机的一般类别相同的计算能力,则它是图灵完备的。在这种情况下,它被称为图灵等价。这样的系统,就像图灵机的类别一样,是通用的:它可以模拟任何可计算的函数。

这一观察的哲学意义是强大而丰富的,不仅适用于计算理论,也适用于我们对信息概念的理解。

5.2.2 普遍性和不变性

通用计算的概念与信息的概念之间存在着复杂的关系。图灵系统的通用性使我们能够说它们处理信息,因为它们的通用性意味着不变性:

小不变性定理:对于一个通用图灵机 U,字符串 x 中的信息概念可以通过最小程序字符串 s 的长度来衡量,其中 U(s)=x。在选择不同的通用图灵机时,这个衡量值是不变的,除了一个可加常数。

证明:这个证明简单而重要于信息哲学。设 l(x)为字符串 x 的长度。假设我们有两个不同的通用图灵机 Uj 和 Uk。由于它们都是通用的,它们都可以模拟图灵机 Ti 在输入 x 上的计算 Ti(x):

Uj(¯¯¯¯Tjix)Uk(¯¯¯¯Tkix)

这里 l(¯¯¯¯Tji)是 Uj 上 Ti 的代码长度,l(¯¯¯¯Tki)是 Uk 上 Ti 的代码长度。假设 l(¯¯¯¯Tjix)≪l(¯¯¯¯Tkix),即 Uk 上 Ti 的代码比 Uj 上的代码要低效得多。观察到 Uj 的代码长度是恒定的,即 l(¯¯¯¯Ukj)=c。由于 Uk 是通用的,我们可以计算:

Uk(¯¯¯¯Ukj ¯¯¯¯Tjix)

此计算的输入长度为:

l(¯¯¯¯Ukj ¯¯¯¯Tjix)=c+l(¯¯¯¯Tjix)

因此,对于通用机器 Uk 上的计算 Ti(x)的输入规范永远不需要超过一个常数。□

这个证明构成了科尔莫哥洛夫复杂性理论的基础,最初由索洛蒙诺夫(1964a,b)提出,并由科尔莫哥洛夫(1965)和查伊廷(1969)独立发现。请注意,这种不变性的概念可以推广到图灵完备系统的类别上:

大不变性定理:以计算输入的长度来衡量信息的概念,在图灵完备系统中是不变的,除了一个可加常数。

证明:假设我们有一个图灵完备系统 F。根据定义,图灵机上的任何计算 Ti(x)都可以在 F 中模拟,反之亦然。将会有一个特殊的通用图灵机 UF,在 F 中模拟计算 Ti(x):UF(¯¯¯¯TFix)。原则上,¯¯¯¯TFi 可能使用一种非常低效的方式来编码程序,以便 ¯¯¯¯TFi 的长度可以任意长。注意,由 UF 模拟的任何其他通用机器 Uj 的代码具有恒定的长度,即 l(¯¯¯¯UFj)=c。由于 UF 是通用的,我们也可以计算:

信息(¯¯¯¯ 信息 j ¯¯¯¯Tjix)

这个计算的输入长度为:l(¯¯¯¯ 信息 j ¯¯¯¯Tjix)=c+l(¯¯¯¯Tjix)因此,对于通用机器 UF 上的计算 Ti(x)的输入规范永远不需要超过一个常数。□

当我们更详细地分析图灵完备系统的类时,这个结果的强度就变得清楚了。在二十世纪上半叶,有三个根本不同的关于计算的一般理论的提议:哥德尔的递归函数(哥德尔 1931 年),图灵的自动机(图灵 1937 年)和丘奇的 λ 演算(丘奇 1936 年)。每个提议都以自己的方式阐明了计算的概念的各个方面。后来还有更多的例子。图灵等价系统的类是多样的。除了像所有通用编程语言(C、Fortran、Prolog 等)这样的明显候选者之外,它还包含一些意想不到的元素,如各种游戏(例如,《魔法:集换式卡片游戏》[Churchill 2012 OIR])。下表概述了一些概念上有趣的系统:

一些图灵完备系统的概述

System

Data Domain

一般递归函数

自然数

图灵机及其推广

符号串

丢番图方程

Integers

Lambda 演算

Terms

0 型语言

Sentences

台球计算

理想的台球

细胞自动机

一维细胞

康威的生命游戏

二维细胞

我们进行以下操作:

观察:图灵等价系统的类是开放的,因为它是根据计算之间的纯操作映射来定义的。

这个观察的直接结果是:

观察:由完全图灵机类定义的计算和信息的一般理论是本体论中立的。

无法推导出计算系统和数据域的任何必要特性,除了它们是一般的数学运算和结构之外。图灵等价系统定义的数据域不一定是物理的、时间的、空间的、二进制的或数字的。在任何时刻都可以引入一个新的类成员。我们知道有些计算系统比图灵机类弱(例如,正则语言)。我们不能排除某一天我们会遇到一个更强大的系统的可能性。这样一个系统不存在的论点被称为丘奇-图灵论题(参见丘奇-图灵论题条目):

丘奇-图灵论题:图灵机类准确地描述了算法计算的概念。

我们概述了支持和反对该论题的论据:

支持这个论点的理由:图灵机理论似乎是我们能够制定的最普遍的理论,因为它基于对计算的非常有限的假设。它的普适性也表明了它的广泛性。很难想象更强大的系统在什么意义上可以更“普遍”。即使我们能够想到这样一个更强大的系统,该系统的输入和输出也必须是有限和离散的,计算时间也是有限的。因此,最终,任何计算都将具有有限数据集之间的有限函数的形式,并且原则上所有这些关系都可以在图灵机上建模。迄今为止,我们已经定义的所有已知计算系统都具有相同的能力,这也支持了这个论点。

反对这个论点的理由:目前的论点是无法证明的。图灵完备系统的类别是开放的。它是基于已知系统之间的等价关系来定义的。从这个意义上说,它并没有本质上定义计算的概念。它没有为我们提供一个定义计算的哲学理论。因此,它不允许我们事先排除任何系统。随时可能出现一种更强大的计算概念的提议。此外,自然界提供了更强大的计算概念,即量子计算。量子比特实际上是与符号操作相关的普通比特概念的推广,尽管到目前为止,量子计算似乎并不需要我们重新定义计算的概念。我们永远无法排除物理学、生物学或化学研究将定义出迫使我们这样做的系统。确实,一些作者提出了这样的系统,但目前还没有关于令人信服的候选者的共识(Davis 2006)。Dershowitz 和 Gurevich(2008)声称已经证明了这个假设,但这个结果并不被普遍接受(请参阅“可计算性 - 如何证明 Church-Turing 论题是错误的”讨论,其他互联网资源 [OIR])。

成为图灵完备似乎是一个(形式)系统的自然条件。任何能够表示自然数和基本算术运算的系统都是图灵完备的。所需的是在一组离散有限数据元素上定义的有限操作集,这足够丰富以使系统自指:它的操作可以由其数据元素描述。这在一定程度上解释了为什么我们可以使用数学来描述我们的世界。在抽象世界数学中,计算的抽象概念被定义为对数字的函数,而在我们每天的现实世界中,计算的具体概念是通过操作对象来实现的。递归函数范式和符号操作范式所暗示的信息和计算的概念是相同的。

观察:如果接受了丘奇-图灵论题是开放的事实,那么这意味着关于普遍信息概念的存在性的问题也是开放的。在研究的这个阶段,不可能为这样一个普遍理论指定先验条件。

5.3 量子信息与超越

我们对经典计算的概念有一个合理的理解,但是量子物理对计算和信息的影响可能决定未来几十年甚至更长时间的哲学研究议程。尽管如此,已经很明显,这项研究对传统哲学立场产生了影响:拉普拉斯观点(拉普拉斯 1814 [1902])认为宇宙本质上是确定性的,似乎被经验观察所证伪。量子随机生成器已经商业化(参见维基百科关于硬件随机数生成器的条目 [ OIR]),量子涨落确实影响到宏观尺度上的神经、生物和物理过程(Albrecht&Phillips 2014)。我们的宇宙实际上是一个永久生成信息的过程。经典确定性计算似乎是一个过于脆弱的概念,无法理解其结构。

在宏观尺度上的标准计算可以定义为根据确定性规则对离散对象进行本地、顺序的操作。它在自然数集合 N 上有一个自然的解释,并且在对数操作 log:N→R 上有一个自然的测量函数,将实数与每个自然数相关联。该定义为我们提供了一个适当的信息度量,适用于可数无限集合,包括封闭于减法的数类,如整数集合 Z,以及封闭于除法的有理数集合 Q。

乘法运算与相关的对数函数的操作准确地描述了我们对信息概念可加性的直觉。它导致了自然数集 N 和数字的多重集合(即质因数集合)之间的自然双射。多重集合的概念与交换律和结合律的性质相关联。当我们研究高维度的除法代数时,这个程序可以扩展到其他类别的数字。下表概述了一些相关的数字类别以及这些类别的乘法运算的性质:

Number Class

Symbol

Dimen­sions

Coun­table

Linear

Commu­tative

Associ­ative

自然数

N

1

Yes

Yes

Yes

Yes

Integers

Z

1

Yes

Yes

Yes

Yes

有理数

Q

1

Yes

Yes

Yes

Yes

Real numbers

R

1

No

Yes

Yes

Yes

复数

C

2

No

No

Yes

Yes

Quaternions

H

4

No

No

No

Yes

Octonions

O

8

No

No

No

No

表格按照一般性递增的顺序排列。从自然数集合 N 开始,可以考虑闭合性减法 Z 和除法 Q 的各种扩展。这些是我们在宏观尺度上具有充分有限符号表示的数字类别。对于实数 R 的元素,这样的表示是不可用的。实数 R 引入了一次操作中无限量信息的操纵方面。

观察:对于几乎所有的 e∈R,我们有 I(e)=∞。

当我们引入虚数作为负平方 i2=−1 时,可以定义更复杂的除法代数。我们现在可以定义复数:a+bi,其中 a 是实部,bi 是虚部。复数可以被解释为二维平面上的向量。因此,它们缺乏符号之间的严格线性顺序的概念。加法非常直观:

(a+bi)+(c+di)=(a+b)+(c+d)i

乘法遵循正常的分配规则,但结果不太直观,因为它涉及由 i2 生成的负项:

(a+bi)(c+di)=(ac−bd)+(bc+ad)i

在这种情况下,乘法不再是一种纯粹的广义运算:

可以定义更复杂的数系统,其中包含了 4 维和 8 维的这种类型的乘法的推广。Kervaire(1958)和 Bott&Milnor(1958)独立地证明了建立在实数上的唯一的四个除法代数是 R,C,H 和 O,因此该表格提供了定义广义性概念的所有可能代数的全面视图。对于表中的每个数类,都可以基于乘法的性质发展出一个单独的信息测量理论。对于可数类 N,Z 和 Q,这些理论与图灵等价概念所暗示的标准信息概念等效。在实数范围内,这些理论满足我们对信息广义性的直观概念。对于复数,乘法的信息效率概念被破坏。四元数缺乏交换性质,而八元数缺乏结合性质。这些模型不仅仅是抽象的构造,因为代数在我们对自然界的描述中起着重要作用:

  1. 复数用于指定量子物理的数学模型(Nielsen&Chuang 2000)。

  2. 四元数用于爱因斯坦的特殊相对论(De Leo 1996)。

  3. 一些物理学家认为八元数构成了强力和电磁力统一理论的理论基础(例如,Furey 2015)。

我们简要讨论了向量空间在量子物理中的应用。经典信息以比特为单位进行测量。在自然界中,比特的实现涉及到至少具有两个不同稳定状态和低能可逆转换过程的宏观物理系统(即开关、继电器、晶体管)。在自然界中以原子水平存储信息的最基本方式涉及到量子比特。量子比特在一个二级量子力学系统中由一个状态向量描述,这在形式上等同于复数上的二维向量空间(Von Neumann 1932; Nielsen & Chuang 2000)。在某些情况下,量子算法的复杂度从根本上较低(例如,用于整数因子分解的 Shor 算法(Shor 1997))。

定义:量子比特,或称量子位,是经典比特的一种推广。量子比特的量子态表示为两个正交基矢的线性叠加:

|0⟩=[10],|1⟩=[01]

这里使用所谓的 Dirac 或“bra-ket”概念:其中|0⟩ 和|1⟩ 发音为“ket 0”和“ket 1”。这两个向量共同形成计算基 {|0⟩,|1⟩},它定义了一个二维希尔伯特空间中的向量。n 个量子比特的组合由一个 2n 维希尔伯特空间中的叠加向量表示,例如:

|00⟩=⎡⎢ ⎢ ⎢⎣1000⎤⎥ ⎥ ⎥⎦,|01⟩=⎡⎢ ⎢ ⎢⎣0100⎤⎥ ⎥ ⎥⎦,|10⟩=⎡⎢ ⎢ ⎢⎣0010⎤⎥ ⎥ ⎥⎦,|11⟩=⎡⎢ ⎢ ⎢⎣0001⎤⎥ ⎥ ⎥⎦

一个纯态量子比特是基态的相干叠加:

|ψ⟩=α|0⟩+β|1⟩

其中 α 和 β 是复数,满足约束条件:

|α|2+|β|2=1

通过这种方式,这些值可以被解释为概率:|α|2 是量子比特值为 0 的概率,|β|2 是量子比特值为 1 的概率。

在这个数学模型下,我们对计算的直觉变得更加丰富,它不再是局部的、顺序的、根据确定性规则对离散对象进行操作。

  1. 无限信息 引入实数使得对具有无限描述复杂性的对象进行操作成为可能,尽管目前没有迹象表明这种表达能力在量子物理中实际上是必要的。

  2. 非经典概率 复数使得广义性的概率概念成为可能,其中概率不再是经典的。科尔莫戈洛夫的第三公理失去了有效性,取而代之的是增强或抑制彼此的概率,因此信息的广义性丧失了。

  3. 叠加和纠缠 用复数高维向量空间表示量子比特意味着量子比特不再是孤立的离散对象。量子比特可以处于叠加态,即同时处于两个离散状态。量子比特会波动,因此它们会产生信息。此外,即使信息的承载者在空间上相隔很远,量子比特的量子态也可以相关。这种现象被称为纠缠,它破坏了经典计算的局部性属性(请参阅关于量子纠缠和信息的条目)。

从这个分析中可以清楚地看出,在非常小的(和非常大的)尺度上,我们宇宙的描述涉及到与我们日常生活中对现实的经验不同的数学模型。让我们能够理解世界的属性(存在稳定的、离散的物体,在空间和时间上保持它们的身份)似乎是更复杂的现实的 emergent 方面,这个现实对我们来说是无法理解的,除非通过数学公式来表达。然而,在宏观层面上,宇宙提供了基本的过程,如计数、测量长度和符号操作,这些过程使我们能够发展一套一致的数学模型层次结构,其中一些似乎描述了更深层次的现实结构。

从某种意义上说,四千年前在美索不达米亚发展起初级会计系统的数学特性,仍然帮助我们深入了解亚原子结构的世界。在过去的几十年中,信息似乎已经成为物理学中一个重要的概念。塞思·劳埃德(Seth Lloyd)和其他人(Zuse 1969;Wheeler 1990;Schmidhuber 1997b;Wolfram 2002;Hutter 2010)已经分析了各种物理系统的计算模型。信息的概念似乎在黑洞的分析中起着重要作用(Lloyd&Ng 2004;Bekenstein 1994 [OIR])。埃里克·弗林德(Erik Verlinde)(2011 年,2017 年)提出了一种以信息为基础分析重力的理论。目前,这些模型似乎纯粹是描述性的,没有任何经验验证的可能性。

6. 异常,悖论和问题

信息哲学中的一些基本问题与现有的哲学问题密切相关,而其他问题似乎是新问题。在本段中,我们讨论了一些可能决定未来研究议程的观察结果。一些相关的问题是:

  1. 是否存在不包含有关所指对象的所有信息的唯一标识描述?

  2. 计算是否会产生新的信息?

  3. 建设和系统搜索之间是否有区别?

自从弗雷格以来,大多数数学家似乎相信第一个问题的答案是肯定的(弗雷格 1879 年,1892 年)。“晨星”和“夜星”这两个描述与识别金星的程序相关联,但它们并不能提供关于物体本身的所有信息。如果是这样的话,发现夜星实际上也是晨星将是无关紧要的。如果我们想保持这个立场,就会陷入冲突,因为根据信息论,第二个问题的答案是否定的(见第 5.1.7 节)。然而,这个观察结果非常反直觉,因为它意味着我们永远无法基于确定性计算构建新的信息,这就引出了第三个问题。这些问题围绕着信息哲学中的一个基本开放问题:

开放问题:信息与计算之间的相互作用是什么?

如果根据我们已知的信息度量,确定性计算不会产生新的信息,那么为什么我们还要进行计算呢?这个问题可以重新表述为:我们应该使用科尔莫哥洛夫复杂度还是列文复杂度(Levin 1973 年,1974 年,1984 年)作为我们的基本信息度量?实际上,这两种选择都会导致相关但根本不同的信息理论。使用列文度量时,计算会产生信息,并且上述三个问题的答案是“是”,而使用科尔莫哥洛夫度量则不是这样。这些问题与数学和计算机科学中的许多问题相关。相关问题,如近似、可计算性和部分信息,也在 Scott 域(Abramsky&Jung 1994)的背景下进行研究。下面我们讨论一些相关的观察结果。

6.1 系统搜索的悖论

信息的本质在于它减少了不确定性。这一观察结果在不透明的环境中会导致问题,例如当我们搜索一个对象时。这可以通过孟诺悖论来说明(参见认识论悖论条目):

那么,苏格拉底,你将如何探究你所不知道的东西呢?你将把什么作为探究的对象?如果你找到了你想要的东西,你又如何知道这正是你所不知道的东西呢?(柏拉图,《孟诺篇》,80d1-4)

这个悖论与计算机科学和哲学中的其他开放问题有关。假设约翰正在寻找一只独角兽。独角兽的存在性非常不可能,所以从香农理论的角度来看,如果约翰找到了一只独角兽,他会获得很多信息。然而从描述性科尔莫哥洛夫的观点来看,约翰并没有获得新的信息,因为他已经知道什么是独角兽。相关的系统性搜索悖论可以如下表述:

通过系统性搜索找到的任何信息都没有价值,因为只要给足够的时间,我们肯定能找到它。因此,只有在我们对其存在性不确定的情况下,信息才有价值,但是当我们发现它存在时,由于我们已经知道我们在寻找什么,我们不会获得新的信息。

例子:哥德巴赫在 1742 年猜想,每个大于 2 的偶数都可以表示为两个质数的和。直到今天,这个猜想仍未被证明。考虑术语“违反哥德巴赫猜想的第一个数”。它并没有给出关于这个数的所有信息,因为这个数可能不存在。前缀“第一个”确保了描述的唯一性,如果存在的话,并给出了一个找到这个数的算法。这是一个部分唯一标识的描述。只有当这个数确实存在时,这个算法才有效,否则它将永远运行下去。如果我们找到了这个数,这将是一个好消息,但从描述复杂性的角度来看,这个数本身将是完全无趣的,因为我们已经知道找到它的相关属性。请注意,即使我们有一个数 n 是哥德巴赫猜想的反例,验证这一点可能是困难的:我们可能需要检查所有小于等于 n 的质数。这可以有效地完成(我们总能得到一个结果),但据我们所知,不是高效的(可能需要“接近”n 次计算)。

一种可能的解决方案是指定一个约束条件,即用部分描述来衡量对象的信息内容是非法的,但这将破坏我们的描述复杂性理论。请注意,对象的复杂性是在通用图灵机上产生对象的最短程序的长度。从这个意义上说,“违反哥德巴赫猜想的第一个数字”这个短语是一个完美的程序描述,并且它充分衡量了这样一个数字的描述复杂性。简短的描述反映了这个数字如果存在的话,它是非常特殊的,因此它在某些数学背景下出现的可能性很高。

存在一些关系,这些关系与像安塞尔姆的存在论证和康德的反驳主张存在不是谓词这样的哲学问题有关。为了避免类似的问题,罗素提出了对唯一描述进行存在解释的建议(罗素 1905 年):像“法国国王是秃头的”这样的句子将具有以下逻辑结构:

∃(x)(KF(x)∧∀(y)(KF(y)→x=y)∧B(x))

这种解释对于分析涉及存在性的决策问题没有帮助。假设谓词 L 对 x 成立,如果我正在寻找 x,那么短语“I’m looking for the king of France”的逻辑结构将是:

∃(x)(KF(x)∧∀(y)(KF(y)→x=y)∧L(x)),

也就是说,如果法国国王不存在,那么我正在寻找他的说法就不可能成立,这是不令人满意的。克里普克(1971 年)批评了罗素的解决方案,并提出了他所谓的因果参照理论,其中一个名称通过最初的“洗礼”行为获得其参照。然后,它成为一个刚性指示符(参见刚性指示符条目),可以通过因果链追溯到那个最初的行为。通过这种方式,像“约翰是今天早上第四个走出电梯的人”这样的临时描述可以为一个名称建立语义。

在数学和信息论的背景下,相应的概念是名称、构造谓词和特定谓词。对于任何一个数,原则上会有无限多个关于该数的真陈述。由于初等算术是不完备的,会有关于数的真但无法证明的陈述。在极限情况下,一个逐渐消失的数的片段将具有真谓词,实际上可以压缩它们的描述。考虑以下陈述:

  1. 符号“8”是数字八的名称。

  2. 数字 x 是第 1000 个斐波那契数。

  3. 数字 x 是第一个违反哥德巴赫猜想的数字。

第一个陈述仅仅为一个数字指定了一个名称。第二个陈述给出了一个部分描述,这个描述是具有建设性、信息压缩和唯一性的。第 1000 个斐波那契数有 209 位数字,所以描述“第 1000 个斐波那契数”比实际数字的名称更高效。此外,我们有一个构造该数字的算法。对于第三个陈述中的描述,情况可能并非如此。我们不知道第一个违反哥德巴赫猜想的数字是否存在,但如果存在,描述可能是特定情况下的临时解决方案,因此对于构造该数字没有任何线索。这引发了一个猜想,即存在着能够有效压缩数据的特定情况下的临时解决方案:

猜想:存在一些数字,它们通过非构造性的唯一有效描述进行压缩,即在给定数字的情况下,可以有效地检查描述的有效性,但不能通过系统性搜索以外的方式有效地构造该数字。

这个猜想是所谓的 P vs. NP 论题的一个更一般的变体(见第 6.3 节)。如果将术语“有效的”替换为术语“高效的”,就得到了 P≠NP 论题的一个表述。

6.2 有限集合中的有效搜索

当我们限制自己在有限集合中进行有效搜索时,部分描述的问题和构造与搜索的问题仍然存在。似乎自然地假设,当一个人有一个数集的定义时,他也拥有关于数集成员及其子集的所有信息,但这并不正确。一般来说,计算一个数集中的信息量是一个非常复杂的问题。我们给出一些结果:

引理 子集 A⊂S 中的 A 可以根据集合 S 条件性地包含比集合本身更多的信息。

证明:考虑所有小于 n 的自然数集合 S。该集合的描述复杂度以比特为单位为 log2n+c。现在通过随机选择 S 的一半元素来构建 A。观察到:

I(A∣S)=log2(nn/2)

我们有:

limn→∞I(A∣S)n=limn→∞log2(nn/2)n=1

这个集合的条件描述复杂度将会是:I(A∣S)≈n+c≫logn+c. □

合并两个集合时,直接的结果是我们可能会丢失信息。更强的结果是:

引理:一个集合的元素可能包含比集合本身更多的信息。

证明:考虑自然数集合 S,其中元素小于 2n。集合 S 的基数是 2n。这个集合的描述复杂度是 logn+c 位,但对于 S 的一半元素,我们需要 n 位来描述它们。□

在这种情况下,集合本身的描述是高度可压缩的,但仍然包含不可压缩的元素。当我们合并或拆分数字集合,或者添加或删除元素时,对信息量的影响通常很难预测,甚至可能是不可计算的:

定理:在集合论运算下,信息不是单调的。

证明:是上述引理的直接推论。□

这表明信息的概念如何渗透到我们的日常生活中。当约翰口袋里有两个苹果时,似乎他可以随心所欲地处理它们,但实际上,一旦他选择其中之一,他就创造了(新的)信息。对于搜索问题来说,后果是明显的:我们总是可以对元素和集合的子集进行有界搜索。因此,当我们通过部分描述搜索这样的子集集合时,结果会产生(新的)信息。这种分析乍一看似乎迫使我们接受,在数学中有简单的描述可以通过系统搜索来识别复杂的对象。当我们寻找对象时,我们对它的信息很少,当我们最终找到它时,我们的信息增加到关于所搜索对象的全部事实的集合。这与我们当前的信息理论(Shannon 和 Kolmogorov)相冲突:任何允许我们通过确定性搜索有效地识别对象的描述都包含有关该对象的所有相关信息。然后搜索过程的时间复杂度是无关紧要的。

6.3 P 与 NP 问题,描述复杂度与时间复杂度

在过去的几十年里,数学家一直在思考一个相关的问题:假设检查我是否找到了我要找的东西很容易,那么找到这样一个对象有多难?在数学和计算机科学中,似乎存在一类决策问题,无法在多项式时间内构造性地解决(其中 t(x)=xc,c 是常数,x 是输入的长度),而只能通过对解空间的大部分进行系统搜索来解决,这可能需要指数时间(t(x)=cx)。这种差异大致对应于可计算和不可计算问题的分离。

存在这些问题的问题被构建为类 P 的决策问题可能等价于在多项式时间内解决输入的类 NP 的问题,其中解决方案可以在多项式时间内检查输入。(Garey&Johnson 1979; 另请参阅 Cook 2000 [OIR] 进行良好的介绍。)

例子:在类 NP 中,一个众所周知的例子是所谓的子集和问题:给定一个有限的自然数集合 S,是否存在一个子集 S'⊆S,其总和为某个数 k?很明显,当有人提出一个解决方案 X⊆S 给这个问题时,我们可以轻松地检查 X 的元素是否加起来等于 k,但为了自己找到这样的解决方案,我们可能需要检查 S 的几乎所有子集。

这是一个所谓的决策问题的例子。答案是一个简单的“是”或“否”,但找到答案可能很困难。请注意,对于给定的 S 的条件性描述复杂度为 logk+c,而 S 的大多数随机子集的条件性描述复杂度为|S|。因此,任何加起来等于 k 的子集 S'的描述复杂度可能大于搜索问题的表述。从这个意义上说,搜索似乎会产生信息。问题在于,如果存在这样的集合,搜索过程是有界的,因此是有效的,这意味着短语“第一个加起来等于 k 的 S 的子集”是一个适当的描述。如果 P=NP,则我们找到的集合 S'的 Kolmogorov 复杂度和 Levin 复杂度大致相等,如果 P≠NP,则在某些情况下 Kt(S')≫K(S')。从不同的角度来看,搜索生成新信息的理论和不生成新信息的理论都是违反直觉的。

P vs. NP 问题似乎非常困难,但在计算机科学和数学领域,它一直是研究的丰富来源,尽管在其哲学相关性方面发表的文章相对较少。解决方案可能具有深远的哲学影响,这可以通过 Scott Aaronson 的一句话来说明:

如果 P = NP,那么世界将会与我们通常认为的截然不同。在“创造性飞跃”中将不再有特殊价值,在解决问题和发现解决方案之间也不再有根本性的差距。每个能欣赏交响乐的人都将成为莫扎特;每个能够按步骤进行推理的人都将成为高斯....(Aaronson 2006 - 在其他互联网资源中)

实际上,如果 P = NP,那么每个具有不太大且易于检查的描述的对象也很容易找到。

6.4 模型选择和数据压缩

在当前的科学方法论中,科学过程的顺序方面是以经验循环的形式进行形式化的,根据 de Groot(1969)的说法,经验循环包括以下阶段:

  1. 观察:对现象的观察和对其原因的探究。

  2. 归纳:假设的制定-对现象的概括性解释。

  3. 演绎:制定实验以测试假设(即,如果为真则确认,如果为假则驳斥)。

  4. 测试:测试假设并收集数据的程序。

  5. 评估:对数据的解释和理论的制定——一种通过归纳论证将实验结果作为现象最合理解释的推理。

在信息理论的背景下,观察集将是一个数据集,我们可以通过观察这个数据集中的规律性来构建模型。科学旨在构建我们现实的真实模型。从这个意义上说,它是一种语义冒险。在 21 世纪,理论形成和测试的过程将在很大程度上由计算机自动完成,这些计算机在大型数据库中处理观测数据。图灵奖得主吉姆·格雷将电子科学作为数据驱动的科学的第四个范式。其他范式包括经验主义、理论和计算。因此,基于数据的自动理论构建过程是科学方法论的一部分,也是信息哲学的一部分(Adriaans&Zantinge 1996; Bell,Hey,&Szalay 2009; Hey,Tansley 和 Tolle 2009)。许多著名的学习算法,如决策树归纳、支持向量机、归一化信息距离和神经网络,使用基于熵的信息度量从大型数据库中提取有意义和有用的模型。学科“数据库中的知识发现”(KDD)的名称本身就表明了大数据研究计划的雄心。我们引用:

在抽象层面上,KDD 领域关注的是开发用于理解数据的方法和技术。KDD 过程所解决的基本问题是将低级数据(通常过于庞大以至于难以理解和消化)映射到其他形式,这些形式可能更紧凑(例如,一个简短的报告),更抽象(例如,生成数据的过程的描述性近似或模型),或者更有用(例如,用于估计未来案例价值的预测模型)。该过程的核心是应用特定的数据挖掘方法进行模式发现和提取。(Fayyad,Piatetsky-Shapiro 和 Smyth 1996:37)

目前的许多研究集中在选择数据集的最佳计算模型的问题上。Kolmogorov 复杂性理论是一种有趣的方法论基础,用于研究学习和理论构建作为一种数据压缩形式。直觉是仍然解释数据的最短理论也是最好的泛化观察的模型。在这个背景下的一个关键区别是一部分和两部分代码优化之间的区别:

  • 一部分代码优化:如果我们遵循 Kolmogorov 复杂性理论的定义,该理论的方法论方面将变得清晰。我们从一个良好构造的数据集 y 开始,并选择一个适当的通用机器 Uj。表达式 Uj(¯¯¯¯¯Tix)=y 是一个真实的句子,它给我们关于 y 的信息。在测量理论的发展中,第一步是通过限制描述对空输入进行计算的句子来将所有表达能力强制到指令或过程部分: Uj(¯¯¯¯¯Ti∅)=y 这个限制对于不变性的证明是至关重要的。从这个原则上无限的句子类中,我们可以将其表示为一个程序并测量其长度。我们选择形式为 ¯¯¯¯¯Ti 的最短的那些(可能有多个)。这样最短描述的长度 l(¯¯¯¯¯Ti)是 y 的信息内容的度量。它是渐近的,即当数据集 y 增长到无限长度时,由另一个图灵机的选择所分配的信息内容在极限情况下不会变化超过一个常数。科尔莫哥洛夫复杂度以在通用计算设备上产生数据集的指令集的最短描述来衡量数据集的信息内容。

  • 两部分代码优化:请注意,通过限制自己只使用空输入的程序,并关注程序的长度而不是其内容,我们获得了度量的不变性,但也失去了很多表达能力。忽略了产生数据集的实际程序中的信息。因此,随后的研究集中于使科尔莫哥洛夫复杂度度量中隐藏的解释能力变得明确。

通过对贝叶斯定律的解释,提出了一种可能的方法。如果我们将香农的最优编码概念与贝叶斯定律相结合,我们就得到了关于最优模型选择的粗略理论。设 H 为一组假设,x 为一组数据。利用贝叶斯定律,该分布下的最优计算模型将是:

Mmap(x)=argmaxM∈HP(M)P(x∣M)P(x)

这等同于优化:

argminM∈H−logP(M)−logP(x∣M)

这里的 −logP(M)可以解释为 Shannon 意义下最优模型代码的长度,而 −logP(x∣M)可以解释为最优数据到模型代码的长度;即,通过模型解释的数据。这一洞察力被称为:

最小描述长度(MDL)原则:解释数据集的最佳理论是最小化理论描述(模型代码)和使用理论编码的数据集(数据到模型代码)的位数之和的理论。

MDL 原则通常被称为奥卡姆剃刀的现代版本(参见奥卡姆的条目),尽管在其原始形式中,奥卡姆剃刀是一个本体论原则,与数据压缩几乎没有关系(Long 2019)。在许多情况下,MDL 是一个有效的启发式工具,该理论的数学性质已经得到了广泛研究(Grünwald 2007)。然而,在过去几十年中,MDL、奥卡姆剃刀和双部分编码优化一直是广泛讨论的话题(例如,Domingos 1998;McAllister 2003)。

索洛蒙诺夫、科尔莫戈洛夫和查伊廷在 20 世纪 60 年代开始的工作的哲学意义是基础和多样的。例如,索洛蒙诺夫提出的通用分布 m 编码了所有可能的数学知识,当根据经验观察进行更新时,原则上会收敛到我们世界的最优科学模型。从这个意义上说,选择通用图灵机作为我们的信息测量理论的基础具有哲学意义,特别是对于科学方法论。选择通用图灵机可以被看作是对我们方法论的一组偏见的选择。大致有两种学派:

  • 穷机派:选择一个小的通用图灵机。如果机器很小,它也是通用的,因为没有空间将任何偏见编码到机器中。此外,限制在小型机器上在模拟一个机器到另一个机器时会有较小的开销,因此得到的 Kolmogorov 复杂度版本会给出一个较小的渐近边际。Hutter 明确支持选择“自然”的小型机器(Hutter 2005;Rathmanner & Hutter 2011),但 Li 和 Vitányi(2019)似乎也建议使用小型模型。

  • 丰富的机器:选择一个明确反映你对世界已有了解的大型机器。对于算法复杂性的发明者 Solomonoff 来说,选择通用图灵机就是选择通用先验。他提倡一种进化学习方法,其中代理不断调整先验以适应自己已经发现的内容。你选择的参考图灵机唯一地表征了你的先验信息(Solomonoff 1997)。

这两种方法都有其价值。对于严格的数学证明,贫瘠机器方法通常是最好的。对于有限数据集的实际应用,丰富模型策略通常能够获得更好的结果,因为贫瘠的机器每次压缩数据集时都需要“重新发明轮子”。这导致了科尔莫哥洛夫复杂性本质上包含了关于科学偏见的理论,并因此暗示了一种明确制定和激励先验的可接受的通用模型类别的方法论。在过去的几十年中,已经提出了一些定义数据集中结构(或模型)信息量的形式化度量单位的建议。

  • 美学度量(Birkhoff 1950)

  • 信息 (Koppel 1987; Antunes et al. 2006; Antunes & Fortnow 2003)

  • 逻辑深度 (Bennet 1988)

  • 有效复杂性 (Gell-Mann, Lloyd 2003)

  • 有意义的信息(Vitányi 2006)

  • 自我不相似性(Wolpert & Macready 2007)

  • 计算深度(Antunes et al. 2006)

  • 事实性(Adriaans 2008)

三种直觉主导着研究。当...时,一个字符串是“有趣的”。

  • 在其创建过程中涉及一定的计算(复杂性,计算深度);

  • 在两部分代码优化(有效复杂性,真实性)下,模型代码和数据代码之间存在平衡;

  • 它具有内部相变(自我不相似性)。

这些模型对最大熵和低信息内容都进行了惩罚。这些直觉之间的确切关系尚不清楚。在过去的几年中,有关有意义信息的问题得到了广泛研究,但基于压缩技术的模型选择的普适方法的构想似乎是错误的:

观察:基于双部分代码优化的有意义信息的度量在 Kolmogorov 复杂性的意义上永远不可能是不变的(Bloem 等人,2015 年,Adriaans,2020 年)。

即使我们将自己限制在像总函数这样的较弱计算模型中,似乎也是如此,但还需要进行更多的研究。对于这种方法,似乎没有先验的数学理论依据,尽管基于重复观察创建的数据集的经验设置中,双部分代码优化仍然是一种有效的方法。目前尚不清楚的可能与结构信息理论相关的现象有:与其复杂性相关的可满足性问题的困难度的相变(Simon&Dubois,1989 年;Crawford&Auton,1993 年)以及与其复杂性相关的图灵机的表达能力的相变(Crutchfield&Young,1989 年,1990 年;Langton,1990 年;Dufort&Lumsden,1994 年)。

6.5 确定性和热力学

许多信息论的基本概念是在 19 世纪在新兴的热力学科学背景下发展起来的。对于 Kolmogorov 复杂性和 Shannon 信息之间的关系有一个合理的理解(Li&Vitányi 2008; Grünwald&Vitányi 2008; Cover&Thomas 2006),但热力学中熵的概念与 Shannon-Kolmogorov 信息的统一非常不完整,除了一些非常特殊的洞察力之外(Harremoës&Topsøe 2008; Bais&Farmer 2008)。Fredkin 和 Toffoli(1982)提出了所谓的台球计算机来研究热力学中的可逆系统(Durand-Lose 2002)(请参阅有关信息处理和热力学熵的条目)。可能的理论模型可以通过可行的实验高概率地得到证实(例如,焦耳的绝热膨胀,参见 Adriaans 2008)。

出现的问题是:

  • 从热力学角度来看,什么是计算过程?

  • 一个计算的热力学理论能否作为非平衡动力学的理论?

  • 实数的表达能力是否对我们宇宙的物理描述是必要的?

这些问题似乎很困难,因为在热力学领域的 150 年研究仍然让我们在热力学理论的核心存在许多概念上的不明确之处(参见时间的热力学不对称性条目)。

实数在有限的计算过程中对我们来说是不可访问的,但它们在我们对热力学过程的分析中确实起着作用。物理系统的最优雅模型是基于连续空间中的函数。在这样的模型中,几乎所有空间中的点都携带着无限的信息量。然而,热力学的基石是有限空间具有有限熵。根据量子信息理论,没有根本的理由认为实数的表达能力在自然界的这个层次上从未被使用过。这个问题与数学哲学中研究的问题有关(直觉主义观点与更柏拉图式观点)。这个问题也与关于计算和信息本质的一些更哲学性的讨论有关(Putnam 1988;Searle 1990)。这个问题还与自然描述中的相变概念(例如热力学与统计力学)和抽象层次的概念(Floridi 2002, 2019)相关。

在过去的十年中,对这些问题的分析取得了一些进展。一个基本的洞察是,时间和计算过程之间的相互作用可以在抽象的数学层面上理解,而不需要某种预期的物理应用(Adriaans & van Emde Boas 2011)。关键是认识到确定性程序不会产生新的信息。因此,物理系统的确定性计算模型永远无法解释自然界中信息或熵的增长:

观察:根据 Adriaans 和 van Emde Boas(2011)的基本定理以及将量子物理视为我们现实结构的本质上的随机描述的假设,拉普拉斯的假设认为宇宙可以被描述为一个确定性计算机是错误的。

将热力学统计学简化为像牛顿物理学这样的确定性理论会导致一种与确定性计算机处理的信息根本不同的熵概念。从这个角度来看,热力学的数学模型,基本上是实数空间上的微分方程,似乎在一个不够表达的层面上运作。更先进的数学模型,考虑到量子效应,可能解决一些概念上的困难。在亚原子级别,自然似乎是固有的概率性的。如果概率性的量子效应在真实的台球球的行为中起作用,那么关于由理想球组成的抽象气体的熵是否增加的争论似乎有点学术性。有理由认为,量子级别的随机现象是宏观尺度上概率的源头(Albrecht&Phillips 2014)。从这个角度来看,宇宙在任何尺度上都是一个源源不断的,字面上是天文数字的信息来源。

6.6 逻辑和语义信息

信息的逻辑和计算方法都源于 20 世纪初哲学研究中的“语言转向”,而最初的研究问题则源自 Frege 的工作(1879 年,1892 年,请参阅逻辑和信息条目)。将信息量量化为真实陈述集合的抱负,正如 Popper、Carnap、Solomonoff、Kolmogorov、Chaitin、Rissanen、Koppel、Schmidthuber、Li、Vitányi 和 Hutter 等研究人员的工作所显示的那样,是一种内在的语义研究计划。事实上,Shannon 的信息理论是唯一明确声称自己是非语义的现代方法。像 Kolmogorov 复杂性(其抱负是用普遍分布的术语编码所有科学知识)和量子信息(其概念是对物理系统的观察)这样的更近期的定量信息度量本质上都假设了一个语义组成部分。与此同时,也有可能发展语义理论的定量版本(请参阅关于信息的语义概念条目)。

算法复杂性理论的核心直觉是一个对象的内涵或意义可以是一个计算,最初由 Frege(1879 年,1892 年)提出。表达式“1 + 4”和“2 + 3”具有相同的外延(Bedeutung)“5”,但具有不同的内涵(Sinn)。从这个意义上说,一个数学对象可以有无限多个不同的含义。在某些不透明的语境中,这种区别是必要的。考虑句子“John knows that log222=2”。显然,log222 代表了一个特定的计算,在这里是相关的。句子“John knows that 2=2”似乎有不同的含义。

Dunn(2001, 2008)指出,逻辑中的信息分析与内涵和外延的概念密切相关。内涵和外延的区别已经在 Port Royal Logic(1662)和 Mill(1843)、Boole(1847)和 Peirce(1868)的著作中得到预见,但是在 Frege(1879, 1892)的逻辑中被系统地引入。从现代意义上讲,谓词的外延,比如“X 是单身汉”,就是我们领域中的单身汉的集合。内涵与谓词的意义相关联,使我们能够从“John 是单身汉”这个事实推导出“John 是男性”和“John 未婚”的事实。很明显,这种现象与模态运算符的可能世界解释和信息的概念有关。单身汉必然也是男性,即在每个可能的世界中,John 是单身汉时也是男性,因此:如果有人告诉我 John 是单身汉,我就会免费得到他是男性和未婚的信息。

模态运算符的可能世界解释(Kripke 1959)与 Carnap(1947)引入的“状态描述”概念相关。状态描述是一个包含每个原子句子或其否定的合取(见第 4.3 节)。为了定义状态描述的良好概率度量,Solomonoff(1960, 1997)发展了算法信息论。从这个角度来看,科尔莫哥洛夫复杂性以其数据类型(程序、数据、机器)的分离和对描述过程效果的真句子的关注,基本上是一个语义理论(Adriaans 2020)。如果我们评估表达式:

Uj(¯¯¯¯¯Tix)=y

如在 5.2.1 节中所解释的,表达式 Uj(¯¯¯¯¯Tix)表示通过在读取机器 Tj 的自限定描述 ¯¯¯¯¯Ti 之后,Uj 对计算 Ti(x)的仿真的结果。在信息地图的上下文中,这个表达式可以被解释为语义信息的一部分(参见关于信息的语义概念的条目)如下:

  • 通用图灵机 Uj 是计算发生的上下文。它可以被解释为计算语义的模态解释中的可能计算世界。

  • 符号序列 ¯¯¯¯¯Tix 和 y 是良构数据。

  • 序列 ¯¯¯¯¯Ti 是一个自限定的程序描述,可以解释为一段良好形式的指令数据。

  • 序列 ¯¯¯¯¯Tix 是一个内涵。序列 y 是相应的外延。

  • 表达式 Uj(¯¯¯¯¯Tix)=y 表示程序 ¯¯¯¯¯Tix 在世界 Uj 中的结果是 y。这是一个真实的句子。

句子的逻辑结构 Uj(¯¯¯¯¯Tix)=y 可以与一个真实的句子相比较:

在对地球上的经验观察的背景下,你可以在早晨的东方天空看到的明亮星星是金星

可以按照以下方式进行解释:Uj 可以被看作是一个上下文,例如,对地球上的科学观察进行编码的偏见,y 是金星的范围,¯¯¯¯¯Tix 是“你可以在早晨的东方天空看到的明亮星星”的内涵。内涵由 Ti 组成,可以被解释为一些通用的天文观察例程(例如,指导数据),而 x 提供了告诉人们在哪里寻找的良好数据(早晨的东方天空的明亮星星)。

这表明在信息的语义概念条目中提出的信息地图方面,更加以真理为导向的信息理论和计算方法之间可能存在一种可能的统一。我们勾画出一些研究问题:

  • 什么是一个好的逻辑系统(或一组系统),可以形式化我们对“知道”、“相信”和“被告知”等概念之间关系的直觉。有 Dretske(1981)、van Benthem(2006;van Benthem&de Rooij 2003)、Floridi(2003, 2011)和其他人的提议。将这些概念与我们当前已知逻辑(结构、模态)的地图进行仔细映射,可能会阐明不同提议的优点和缺点。

  • 目前尚不清楚在亚里士多德的意义上,将环境数据与其他数据区分开来的具体差异是什么,例如,如果一个人使用海滩上的卵石来计算他观察到的海豚数量,那么对于不知情的过路人来说,判断这些石头的收集是否是环境数据可能是不可能的。

  • 教学数据的类别似乎过于狭窄,因为它将我们限制在对计算的特定解释上。在大多数情况下,图灵等效的计算范式并不是教学性的,尽管有人可能会辩称,图灵机的程序是这样的数据。

  • 我们不清楚如何应对图灵完备系统中自指性方面固有的本体二元性:图灵机在同时作为程序的表示和非教学性数据上操作。

  • 不清楚一个将信息定义为仅由真陈述构成的理论如何处理量子物理学中的基本问题。在这样的理论中,一个不一致的逻辑模型中薛定谔的猫同时死和活着,如何包含任何信息?

6.7 意义和计算

自从笛卡尔以来,我们所感知到的有意义的世界能够被归结为物理过程的观念一直是西方哲学中的主题。相应的哲学自我反思在历史上与技术发展紧密相连:人类的思维是否是一台自动机,思维是否是图灵机,最终思维是否是量子计算机?在这里不是讨论这些问题的地方,但信息哲学中的相应问题是相关的:

开放问题:意义是否能够被归结为计算?

这个问题与哲学中更一般的问题交织在一起,它的答案直接迫使我们在更实证主义或更解释学的哲学方法之间做出选择,对于知识论、形而上学、美学和伦理学都有影响。它还直接影响我们日常所做的实际决策。一个医生的行为应该以循证医学为指导,还是以关爱的概念为指导?一个病人是一个有意识的人类,想要过上有意义的生活,还是他最终只是一个需要修复的系统?

认为意义本质上是一种计算现象的观点可能看起来很极端,但在科学、哲学和文化中有许多讨论和理论隐含地假设了这样的观点。在流行文化中,例如,有一系列引人注目的电影和书籍,其中我们发现邪恶的计算机意识到了自己的存在(《2001 太空漫游》),个体将他们的意识上传到计算机中(《割草机人》),并在虚拟现实中进行战斗(《黑客帝国》)。在哲学中,博斯特罗姆(2003)的观点很有代表性,他辩称我们很有可能已经生活在一个计算机模拟中。关于将意义归结为计算的利弊有许多争论。我们概述了支持这两种极端立场的可能论证。

  • 意义是计算的一个新兴方面:科学是我们努力开发一个基于相互可验证的重复观察的有效客观理论描述宇宙的最佳努力。科学告诉我们,在小尺度上,我们的现实由行为由精确数学模型描述的基本粒子组成。在基本水平上,这些粒子相互作用并交换信息。这些过程本质上是计算的。在这个最基本的描述水平上,没有主观意义的空间。没有理由否认我们作为人类体验到一个有意义的世界,但这必须是自然的一个新兴方面。在基本水平上,它不存在。我们可以将我们的宇宙描述为一个大型量子计算机。我们可以估计我们的宇宙的信息存储内容为 1092 比特,并且自大爆炸以来所进行的计算步骤数量为 10123(Lloyd 2000; Lloyd & Ng 2004)。作为人类,我们只是宇宙的子系统,估计复杂度约为 1030 比特。这可能在技术上是不可能的,但似乎没有理论上的反对意见,我们可以原则上构建一个人类的精确副本,无论是作为直接的物理副本还是作为计算机中的模拟。这样一个“人工”的人将体验到一个有意义的世界,但这种体验将是新兴的。

  • 信息本体论根植于我们对世界的个体经验,因此是不可简化的:科学理论消除了我们世界的大部分语义方面的原因,是由于科学方法论的本质。意义和相关情感的本质在于它们根植于我们对世界的个体经验。通过关注不同观察者对相似事件的重复观察,科学方法论排除了先验分析意义概念的可能性。经验科学方法论之所以有价值,是因为它使我们能够抽象出有意识观察者的个体差异,但没有理由将我们的本体论简化为经验科学研究的现象。孤立的个体事件和观察从定义上来说不适合实验分析,这似乎是科学与人文学科的分界点。在历史、文学、视觉艺术和伦理学等学科中,我们主要分析个体事件和个体对象。这些事件和对象离我们的个体存在越近,对我们来说意义就越大。毫无疑问,像“格尔尼卡是一幅展示战争暴行的杰作”或“麦肯罗打了一场如此激动人心的比赛,他应该赢得胜利”这样在正确的语境中说出的句子传达了有意义的信息。认为这些信息内容最终应该以计算过程的方式理解似乎过于极端而不可行。

除此之外,像物理学这样的学科,直到最近才意识到宇宙中约 68%的能量和 27%的物质,没有一个统一的基本力量理论,只能用缺乏直观基础的数学模型来解释我们世界的基本方面,目前似乎没有趋于一个能够成为还原主义形而上学充分基础的模型。

一旦我们用真实陈述来定义信息,一些含义就变得可计算,而其他一些则缺乏这个特征。在经验科学的背景下,我们可以研究那些旨在构建理论的研究人员群体,这些理论概括了重复观察数据集中的结构信息。这种理论构建和主观验证与证伪的过程具有固有的计算组成部分。事实上,这种主观验证的概念似乎是数学的一个基本要素。这是人文学科的核心问题不适合进行定量分析的主要原因:我们可以对一个绘画是否比另一个更美丽持不同意见,但不能对存在两幅绘画的事实持不同意见。

很明显,计算作为一个概念模型在许多科学学科中起到了作用,从认知学(Chater&Vitányi 2003)到生物学(参见生物信息条目)和物理学(Lloyd&Ng 2004; Verlinde 2011, 2017)。通过计算从数据集中提取有意义的模型是大数据革命的推动力量(Adriaans&Zantinge 1996; Bell,Hey,&Szalay 2009; Hey,Tansley,&Tolle 2009)。像谷歌和 Facebook 这样的跨国公司“了解”个人的一切都是通过计算过程从大型数据库中提取出来的,不可否认这种“知识”对社会产生了相当大的影响。研究问题“我们如何通过计算从大型数据集中构建有意义的数据?”是二十一世纪科学的一个基本元问题,因此是信息哲学的一部分,但并不严格要求采取还原主义观点。

7. 结论

信息哲学首先可能受益于信息哲学。信息的概念可能对几乎所有哲学主要学科产生影响,从逻辑、知识论到本体论,甚至伦理学和美学(见上文介绍)。科学哲学和信息哲学对归纳问题和理论形成问题的兴趣可能都会从更紧密的合作中受益(见 4.1 波普尔:信息作为可证伪程度)。信息的概念在哲学史上起着重要作用,但尚未完全理解(见 2.术语和信息概念的历史)。

随着信息成为几乎所有科学和人文学科的核心问题,这一发展也将影响这些领域的哲学思考。考古学家、语言学家、物理学家、天文学家都在处理信息。科学家在能够提出理论之前必须首先收集信息。应用可能性是丰富的。数据挖掘和处理极大数据集似乎是 21 世纪几乎每个经验学科的必要条件。

在生物学中,我们已经发现信息对于生命本身的组织和复杂有机体的传播至关重要(见生物信息条目)。主要问题之一是当前模型无法很好地解释生命的复杂性。瓦利安特开始了一个研究计划,研究进化作为一种计算学习形式(瓦利安特 2009),以解释这种差异。亚伦森(2013)明确主张复杂性理论和哲学之间更紧密的合作。

直到最近,普遍观点认为各种信息概念或多或少是孤立的,但近年来在理解这些概念之间的关系方面取得了相当大的进展。例如,Cover 和 Thomas(2006)认为 Kolmogorov 复杂性和 Shannon 信息之间存在完美匹配。Grünwald 和 Vitányi(2008)也做出了类似的观察。热力学理论和信息论之间的联系也得到了研究(Bais&Farmer 2008; Harremoës&Topsøe 2008),很明显,物理学和信息论之间的联系要比熵和信息的形式处理之间的临时相似性复杂得多(Gell-Mann&Lloyd 2003; Verlinde(2011, 2017)。目前,量子计算尚未发展到比经典计算更强大的程度,但这个门槛可能在未来几年内被突破。从哲学的角度来看,量子物理学和信息论的许多概念问题似乎融合成一个相关问题领域:

  • 信息和计算之间的关系是什么?

  • 现实世界中的计算是否根本上是非确定性的?

  • 宏观尺度上的符号操作与量子物理世界之间的关系是什么?

  • 什么是量子计算的良好模型,我们如何控制它的能力?

  • 量子世界之外是否存在信息?

信息的概念已经成为我们社会和科学中的核心。信息技术在我们组织生活方式方面起着关键作用。它也已经成为科学和人文学科中的基本范畴。信息哲学作为一门历史和系统的学科,为旧的哲学问题提供了新的视角,并提出了新的研究领域。

Bibliography

  • Aaronson, Scott, 2013, “Why Philosophers Should Care About Computational Complexity”, in Computability: Turing, Gödel, Church, and Beyond, Brian Jack Copeland, Carl J. Posy, and Oron Shagrir (eds.), Cambridge, MA: The MIT Press. [Aaronson 2013 preprint available online]

  • Abramsky, Samson and Achim Jung, 1994, “Domain theory”, in Handbook of Logic in Computer Science (vol. 3): Semantic Structure, Samson Abramsky, Dov M. Gabbay, and Thomas S. E. Maibaum (eds.),. Oxford University Press. pp. 1–168.

  • Adams, Fred and João Antonio de Moraes, 2016, “Is There a Philosophy of Information?”, Topoi, 35(1): 161–171. doi:10.1007/s11245-014-9252-9

  • Adriaans, Pieter, 2007, “Learning as Data Compression”, in Computation and Logic in the Real World, S. Barry Cooper, Benedikt Löwe, and Andrea Sorbi (eds.), (Lecture Notes in Computer Science: Volume 4497), Berlin, Heidelberg: Springer Berlin Heidelberg, 11–24. doi:10.1007/978-3-540-73001-9_2

  • –––, 2008, “Between Order and Chaos: The Quest for Meaningful Information”, Theory of Computing Systems (Special Issue: Computation and Logic in the Real World; Guest Editors: S. Barry Cooper, Elvira Mayordomo and Andrea Sorbi), 45(4): 650–674. doi:10.1007/s00224-009-9173-y

  • –––, 2020, “A computational theory of meaning”, in Advances in Info-Metrics: Information and Information Processing across Disciplines, Min Chen, Michael Dunn, Amos Golan and Aman Ullah (eds.), New York: Oxford University Press, 32–78. doi:10.1093/oso/9780190636685.003.0002

  • Adriaans, Pieter and Peter van Emde Boas, 2011, “Computation, Information, and the Arrow of Time”, in Computability in Context: Computation and Logic in the Real World, by S Barry Cooper and Andrea Sorbi (eds), London: Imperial College Press, 1–17. doi:10.1142/9781848162778_0001

  • Adriaans, Pieter and Johan van Benthem, 2008a, “Introduction: Information Is What Information Does”, in Adriaans & van Benthem 2008b: 3–26. doi:10.1016/B978-0-444-51726-5.50006-6

  • ––– (eds.), 2008b, Philosophy of Information, (Handbook of the Philosophy of Science 8), Amsterdam: Elsevier. doi:10.1016/C2009-0-16481-4

  • Adriaans, Pieter and Paul M.B. Vitányi, 2009, “Approximation of the Two-Part MDL Code”, IEEE Transactions on Information Theory, 55(1): 444–457. doi:10.1109/TIT.2008.2008152

  • Adriaans, Pieter and Dolf Zantinge, 1996, Data Mining, Harlow, England: Addison-Wesley.

  • Agrawal, Manindra, Neeraj Kayal, and Nitin Saxena, 2004, “PRIMES Is in P”, Annals of Mathematics, 160(2): 781–793. doi:10.4007/annals.2004.160.781

  • Albrecht, Andreas and Daniel Phillips, 2014, “Origin of Probabilities and Their Application to the Multiverse”, Physical Review D, 90(12): 123514. doi:10.1103/PhysRevD.90. 123514

  • Antunes, Luís and Lance Fortnow, 2003, “Sophistication Revisited”, in Proceedings of the 30th International Colloquium on Automata, Languages and Programming (Lecture Notes in Computer Science: Volume 2719), Jos C. M. Baeten, Jan Karel Lenstra, Joachim Parrow, and Gerhard J. Woeginger (eds.), Berlin: Springer, pp. 267–277. doi:10.1007/3-540-45061-0_23

  • Antunes, Luis, Lance Fortnow, Dieter van Melkebeek, and N.V. Vinodchandran, 2006, “Computational Depth: Concept and Applications”, Theoretical Computer Science, 354(3): 391–404. doi:10.1016/j.tcs.2005.11.033

  • Aquinas, St. Thomas, 1265–1274, Summa Theologiae.

  • Arbuthnot, John, 1692, Of the Laws of Chance, or, a method of Calculation of the Hazards of Game, Plainly demonstrated, And applied to Games as present most in Use, translation of Huygens’ De Ratiociniis in Ludo Aleae, 1657.

  • Aristotle. Aristotle in 23 Volumes, Vols. 17, 18, translated by Hugh Tredennick, Cambridge, MA: Harvard University Press; London, William Heinemann Ltd. 1933, 1989.

  • Austen, Jane, 1815, Emma, London: Richard Bentley and Son.

  • Bar-Hillel, Yehoshua and Rudolf Carnap, 1953, “Semantic Information”, The British Journal for the Philosophy of Science, 4(14): 147–157. doi:10.1093/bjps/IV.14.147

  • Bais, F. Alexander and J. Doyne Farmer, 2008, “The Physics of Information”, Adriaans and van Benthem 2008b: 609–683. doi:10.1016/B978-0-444-51726-5.50020-0

  • Barron, Andrew, Jorma Rissanen, and Bin Yu, 1998, “The Minimum Description Length Principle in Coding and Modeling”, IEEE Transactions on Information Theory, 44(6): 2743–2760. doi:10.1109/18.720554

  • Barwise, Jon and John Perry, 1983, Situations and Attitudes, Cambridge, MA: MIT Press.

  • Bell, Gordon, Tony Hey, and Alex Szalay, 2009, “Computer Science: Beyond the Data Deluge”, Science, 323(5919): 1297–1298. doi:10.1126/science.1170411

  • Bennett, C. H., 1988, “Logical Depth and Physical Complexity”, in Rolf Herken (ed.), The Universal Turing Machine: A Half-Century Survey, Oxford: Oxford University Press, pp. 227–257.

  • Berkeley, George, 1732, Alciphron: Or the Minute Philosopher, Edinburgh: Thomas Nelson, 1948–57.

  • Bernoulli, Danielis, 1738, Hydrodynamica, Argentorati: sumptibus Johannis Reinholdi Dulseckeri. [Bernoulli 1738 available online]

  • Birkhoff, George David, 1950, Collected Mathematical Papers, New York: American Mathematical Society.

  • Bloem, Peter, Steven de Rooij, and Pieter Adriaans, 2015, “Two Problems for Sophistication”, in Algorithmic Learning Theory, (Lecture Notes in Computer Science 9355), Kamalika Chaudhuri, Claudio Gentile, and Sandra Zilles (eds.), Cham: Springer International Publishing, 379–394. doi:10.1007/978-3-319-24486-0_25

  • Boltzmann, Ludwig, 1866, “Über die Mechanische Bedeutung des Zweiten Hauptsatzes der Wärmetheorie”, Wiener Berichte, 53: 195–220.

  • Boole, George, 1847, Mathematical Analysis of Logic: Being an Essay towards a Calculus of Deductive Reasoning, Cambridge: Macmillan, Barclay, & Macmillan. [Boole 1847 available online].

  • –––, 1854, An Investigation of the Laws of Thought: On which are Founded the Mathematical Theories of Logic and Probabilities, London: Walton and Maberly.

  • Bostrom, Nick, 2003, “Are We Living in a Computer Simulation?”, The Philosophical Quarterly, 53(211): 243–255. doi:10.1111/1467-9213.00309

  • Bott, R. and J. Milnor, 1958, “On the Parallelizability of the Spheres”, Bulletin of the American Mathematical Society, 64(3): 87–89. doi:10.1090/S0002-9904-1958-10166-4

  • Bovens, Luc and Stephan Hartmann, 2003, Bayesian Epistemology, Oxford: Oxford University Press. doi:10.1093/0199269750.001.0001

  • Brenner, Joseph E., 2008, Logic in Reality, Dordrecht: Springer Netherlands. doi:10.1007/978-1-4020-8375-4

  • Briggs, Henry, 1624, Arithmetica Logarithmica, London: Gulielmus Iones.

  • Capurro, Rafael, 1978, Information. Ein Beitrag zur etymologischen und ideengeschichtlichen Begründung des Informationsbegriffs (Information: A contribution to the foundation of the concept of information based on its etymology and in the history of ideas), Munich, Germany: Saur. [Capurro 1978 available online].

  • –––, 2009, “Past, Present, and Future of the Concept of Information”, TripleC: Communication, Capitalism & Critique, 7(2): 125–141. doi:10.31269/triplec.v7i2.113

  • Capurro, Rafael and Birger Hjørland, 2003, “The Concept of Information”, in Blaise Cronin (ed.), Annual Review of Information Science and Technology (ARIST), 37: 343–411 (Chapter 8). doi:10.1002/aris.1440370109

  • Capurro, Rafael and John Holgate (eds.), 2011, Messages and Messengers: Angeletics as an Approach to the Phenomenology of Communication (Von Boten Und Botschaften, (Schriftenreihe Des International Center for Information Ethics 5), München: Fink.

  • Carnap, Rudolf, 1928, Scheinprobleme in der Philosophie (Pseudoproblems of Philosophy), Berlin: Weltkreis-Verlag.

  • –––, 1945, “The Two Concepts of Probability: The Problem of Probability”, Philosophy and Phenomenological Research, 5(4): 513–532. doi:10.2307/2102817

  • –––, 1947, Meaning and Necessity, Chicago: The University of Chicago Press.

  • –––, 1950, Logical Foundations of Probability, Chicago: The University of Chicago Press.

  • Chaitin, Gregory J., 1969, “On the Length of Programs for Computing Finite Binary Sequences: Statistical Considerations”, Journal of the ACM, 16(1): 145–159. doi:10.1145/321495.321506

  • –––, 1987, Algorithmic Information Theory, Cambridge: Cambridge University Press. doi:10.1017/CBO9780511608858

  • Chater, Nick and Paul Vitányi, 2003, “Simplicity: A Unifying Principle in Cognitive Science?”, Trends in Cognitive Sciences, 7(1): 19–22. doi:10.1016/S1364-6613(02)00005-0

  • Church, Alonzo, 1936, “An Unsolvable Problem of Elementary Number Theory”, American Journal of Mathematics 58(2): 345–363. doi:10.2307/2371045

  • Cilibrasi, Rudi and Paul M.B. Vitanyi, 2005, “Clustering by Compression”, IEEE Transactions on Information Theory, 51(4): 1523–1545. doi:10.1109/TIT.2005.844059

  • Clausius, R., 1850, “Ueber die bewegende Kraft der Wärme und die Gesetze, welche sich daraus für die Wärmelehre selbst ableiten lassen”, Annalen der Physik und Chemie, 155(3): 368–397. doi:10.1002/andp.18501550306

  • Conan Doyle, Arthur, 1892, “The Adventure of the Noble Bachelor”, in The Adventures of Sherlock Holmes, London: George Newnes Ltd, story 10.

  • Cover, Thomas M. and Joy A. Thomas, 2006, Elements of Information Theory, second edition, New York: John Wiley & Sons.

  • Crawford, James M. and Larry D. Auton, 1993, “Experimental Results on the Crossover Point in Satisfiability Problems”, Proceedings of the Eleventh National Conference on Artificial Intelligence, AAAI Press, pp. 21–27. [Crawford & Auton 1993 available online]

  • Crutchfield, James P. and Karl Young, 1989, “Inferring Statistical Complexity”, Physical Review Letters, 63(2): 105–108. doi:10.1103/PhysRevLett.63.105

  • –––, 1990, “Computation at the Onset of Chaos”, in Entropy, Complexity, and the Physics of Information, W. Zurek, editor, SFI Studies in the Sciences of Complexity, VIII, Reading, MA: Addison-Wesley, pp. 223–269. [Crutchfield & Young 1990 available online]

  • D’Alfonso, Simon, 2012, “Towards a Framework for Semantic Information”, Ph.D. Thesis, Department of Philosophy, School of Historical and Philosophical Studies, The University of Melbourne. D’Alfonso 2012 available online

  • Davis, Martin, 2006, “Why There Is No Such Discipline as Hypercomputation”, Applied Mathematics and Computation, 178(1): 4–7. doi:10.1016/j.amc.2005.09.066

  • Defoe, Daniel, 1719, The Life and Strange Surprising Adventures of Robinson Crusoe of York, Mariner: who lived Eight and Twenty Years, all alone in an uninhabited Island on the coast of America, near the Mouth of the Great River of Oroonoque; Having been cast on Shore by Shipwreck, wherein all the Men perished but himself. With An Account how he was at last as strangely deliver’d by Pirates. Written by Himself, London: W. Taylor. [Defoe 1719 available online]

  • De Leo, Stefano, 1996, “Quaternions and Special Relativity”, Journal of Mathematical Physics, 37(6): 2955–2968. doi:10.1063/1.531548

  • Dershowitz, Nachum and Yuri Gurevich, 2008, “A Natural Axiomatization of Computability and Proof of Church’s Thesis”, Bulletin of Symbolic Logic, 14(3): 299–350. doi:10.2178/bsl/1231081370

  • Descartes, René, 1641, Meditationes de Prima Philosophia (Meditations on First Philosophy), Paris.

  • –––, 1647, Discours de la Méthode (Discourse on Method), Leiden.

  • Devlin, Keith and Duska Rosenberg, 2008, “Information in the Study of Human Interaction”, Adriaans and van Benthem 2008b: 685–709. doi:10.1016/B978-0-444-51726-5.50021-2

  • Dictionnaire du Moyen Français (1330–1500), 2015, “Information”, in Dictionnaire du Moyen Français (1330–1500), volume 16, 313–315. [Dictionnaire du Moyen Français available online]

  • Domingos, Pedro, 1998, “Occam’s Two Razors: The Sharp and the Blunt”, in Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining (KDD–98), New York: AAAI Press, pp. 37–43. [Domingos 1998 available online]

  • Downey, Rodney G. and Denis R. Hirschfeldt, 2010, Algorithmic Randomness and Complexity, (Theory and Applications of Computability), New York: Springer New York. doi:10.1007/978-0-387-68441-3

  • Dretske, Fred, 1981, Knowledge and the Flow of Information, Cambridge, MA: The MIT Press.

  • Dufort, Paul A. and Charles J. Lumsden, 1994, “The Complexity and Entropy of Turing Machines”, in Proceedings Workshop on Physics and Computation. PhysComp ’94, Dallas, TX: IEEE Computer Society Press, 227–232. doi:10.1109/PHYCMP.1994.363677

  • Dunn, Jon Michael, 2001, “The Concept of Information and the Development of Modern Logic”, in Zwischen traditioneller und moderner Logik: Nichtklassiche Ansatze (Non-classical Approaches in the Transition from Traditional to Modern Logic), Werner Stelzner and Manfred Stöckler (eds.), Paderborn: Mentis, 423–447.

  • –––, 2008, “Information in Computer Science”, in Adriaans and van Benthem 2008b: 581–608. doi:10.1016/B978-0-444-51726-5.50019-4

  • Dijksterhuis, E. J., 1986, The Mechanization of the World Picture: Pythagoras to Newton, Princeton, NJ: Princeton University Press.

  • Duns Scotus, John [1265/66–1308 CE], Opera Omnia (The Wadding edition), Luke Wadding (ed.), Lyon, 1639; reprinted Hildesheim: Georg Olms Verlagsbuchhandlung, 1968.

  • Durand-Lose, Jérôme, 2002, “Computing Inside the Billiard Ball Model”, in Collision-Based Computing, Andrew Adamatzky (ed.), London: Springer London, 135–160. doi:10.1007/978-1-4471-0129-1_6

  • Edwards, Paul, 1967, The Encyclopedia of Philosophy, 8 volumes, New York: Macmillan Publishing Company.

  • Fayyad, Usama, Gregory Piatetsky-Shapiro, and Padhraic Smyth, 1996, “From Data Mining to Knowledge Discovery in Databases”, AI Magazine, 17(3): 37–37.

  • Fisher, R. A., 1925, “Theory of Statistical Estimation”, Mathematical Proceedings of the Cambridge Philosophical Society, 22(05): 700–725. doi:10.1017/S0305004100009580

  • Floridi, Luciano, 1999, “Information Ethics: On the Philosophical Foundation of Computer Ethics”, Ethics and Information Technology, 1(1): 33–52. doi:10.1023/A:1010018611096

  • –––, 2002, “What Is the Philosophy of Information?” Metaphilosophy, 33(1–2): 123–145. doi:10.1111/1467-9973.00221

  • ––– (ed.), 2003, The Blackwell Guide to the Philosophy of Computing and Information, Oxford: Blackwell. doi:10.1002/9780470757017

  • –––, 2010, “The Philosophy of Information as a Conceptual Framework”, Knowledge, Technology & Policy, 23(1–2): 253–281. doi:10.1007/s12130-010-9112-x

  • –––, 2011, The Philosophy of Information, Oxford: Oxford University Press. doi:10.1093/acprof:oso/9780199232383.001.0001

  • –––, 2019, The logic of information: a theory of philosophy as conceptual design, Oxford: Oxford University Press. doi:10.1093/oso/9780198833635.001.0001

  • Fredkin, Edward and Tommaso Toffoli, 1982, “Conservative Logic”, International Journal of Theoretical Physics, 21(3–4): 219–253. doi:10.1007/BF01857727

  • Frege, Gottlob, 1879, Begriffsschrift: eine der arithmetischen nachgebildete Formelsprache des reinen Denkens, Halle.

  • –––, 1892, “Über Sinn und Bedeutung”, Zeitschrift für Philosophie und philosophische Kritik, NF 100.

  • Furey, C., 2015, “Charge Quantization from a Number Operator”, Physics Letters B, 742(March): 195–199. doi:10.1016/j.physletb.2015.01.023

  • Galileo Galilei, 1623 [1960], Il Saggiatore (in Italian), Rome; translated as The Assayer, by Stillman Drake and C. D. O’Malley, in The Controversy on the Comets of 1618, Philadelphia: University of Pennsylvania Press, 1960, 151–336.

  • Garey, Michael R. and David S. Johnson, 1979, Computers and Intractability: A Guide to the Theory of NP-Completeness, (A Series of Books in the Mathematical Sciences), San Francisco: W. H. Freeman.

  • Gell-Mann, Murray and Seth Lloyd, 2003, “Effective Computing”. SFI Working Paper 03-12-068, Santa Fe, NM: Santa Fe Institute. [Gell-Mann & Lloyd 2003 available online]

  • Gibbs, J. Willard, 1906, The Scientific Papers of J. Willard Gibbs in Two Volumes, 1. Longmans, Green, and Co.

  • Godefroy, Frédéric G., 1881, Dictionnaire de l’ancienne langue française et de tous ses dialectes du 9e au 15e siècle, Paris: F. Vieweg.

  • Gödel, Kurt, 1931, “Über formal unentscheidbare Sätze der Principia Mathematica und verwandter Systeme I”, Monatshefte für Mathematik und Physik, 38–38(1): 173–198. doi:10.1007/BF01700692

  • Goodstein, R. L., 1957, “The Definition of Number”, The Mathematical Gazette, 41(337): 180–186. doi:10.2307/3609188

  • Grünwald, Peter D., 2007, The Minimum Description Length Principle, Cambridge, MA: MIT Press.

  • Grünwald, Peter D. and Paul M.B. Vitányi, 2008, “Algorithmic Information Theory”, in Adriaans and van Benthem 2008b: 281–317. doi:10.1016/B978-0-444-51726-5.50013-3

  • Groot, Adrianus Dingeman de, 1961 [1969], Methodology: Foundations of Inference and Research in the Behavioral Sciences (Methodologie: grondslagen van onderzoek en denken in de gedragswetenschappen), The Hague: Mouton.

  • Hamkins, J., and Lewis, A., 2000, Infinite time Turing machines. Journal of Symbolic Logic, 65(2), 567-604. doi:10.2307/2586556

  • Harremoës, Peter and Flemming Topsøe, 2008, “The Quantitative Theory of Information”, in Adriaans and van Benthem 2008b: 171–216. doi:10.1016/B978-0-444-51726-5.50011-X

  • Hartley, R.V.L., 1928, “Transmission of Information”, Bell System Technical Journal, 7(3): 535–563. doi:10.1002/j.1538-7305.1928.tb01236.x

  • Hazard, Paul, 1935, La Crise de La Conscience Européenne (1680–1715), Paris: Boivin.

  • Hey, Anthony J. G., Stewart Tansley, and Kristin Tolle (eds.), 2009, The Fourth Paradigm: Data-Intensive Scientific Discovery, Redmond, WA: Microsoft Research. [Hey et al. 2009 available online]

  • Hintikka, Jaakko, 1962, Knowledge and Belief: An Introduction to the Logic of the Two Notions, (Contemporary Philosophy), Ithaca, NY: Cornell University Press.

  • –––, 1973, Logic, Language Games and Information: Kantian Themes in the Philosophy of Logic, Oxford: Clarendon Press.

  • Hume, David, 1739–40, A Treatise of Human Nature. Reprinted, L.A. Selby-Bigge (ed.), Oxford: Clarendon Press, 1896. [Hume 1739–40 [1896] available online]

  • –––, 1748, An Enquiry concerning Human Understanding. Reprinted in Enquiries Concerning the Human Understanding and Concerning the Principles of Morals, 1777 which was reprinted, L.A. Selby-Bigge (ed.), Oxford: Clarendon Press, 1888 (second edition 1902). [Hume 1748 [1902] available online]

  • Hutter, Marcus, 2005, Universal Artificial Intellegence: Sequential Decisions Based on Algorithmic Probability, (Texts in Theoretical Computer Science, an EATCS Series), Berlin, Heidelberg: Springer Berlin Heidelberg. doi:10.1007/b138233

  • –––, 2007a, “On Universal Prediction and Bayesian Confirmation”, Theoretical Computer Science, 384(1): 33–48. doi:10.1016/j.tcs.2007.05.016

  • –––, 2007b, “Algorithmic Information Theory: a brief non-technical guide to the field”, Scholarpedia, 2(3): art. 2519. doi:10.4249/scholarpedia.2519

  • –––, 2010, “A Complete Theory of Everything (will be subjective)”, Algorithms, 3(4): 329–350. doi:10.3390/a3040329

  • Hutter, Marcus, John W. Lloyd, Kee Siong Ng, and William T.B. Uther, 2013, “Probabilities on Sentences in an Expressive Logic”, Journal of Applied Logic, special issue: Combining Probability and Logic: Papers from Progic 2011, Jeffrey Helzner (ed.), 11(4): 386–420. doi:10.1016/j.jal.2013.03.003.

  • Ibn Tufail, Hayy ibn Yaqdhan, translated as Philosophus Autodidactus, published by Edward Pococke the Younger in 1671.

  • Kahn, David, 1967, The Code-Breakers, The Comprehensive History of Secret Communication from Ancient Times to the Internet, New York: Scribner.

  • Kant, Immanuel, 1781, Kritik der reinen Vernunft (Critique of Pure Reason), Germany.

  • Kervaire, Michel A., 1958, “Non-Parallelizability of the n-Sphere for n > 7”, Proceedings of the National Academy of Sciences of the United States of America, 44(3): 280–283. doi:10.1073/pnas.44.3.280

  • al-Khwārizmī, Muḥammad ibn Mūsā, ca. 820 CE, Hisab al-jabr w’al-muqabala, Kitab al-Jabr wa-l-Muqabala (The Compendious Book on Calculation by Completion and Balancing), Translated by Frederic Rosen, London: Murray, 1831. [al-Khwarizmi translation available online]

  • Kolmogorov, A.N., 1965, “Three Approaches to the Quantitative Definition of Information”, Problems of Information Transmission, 1(1): 1–7. Reprinted 1968 in International Journal of Computer Mathematics, 2(1–4): 157–168. doi:10.1080/00207166808803030

  • Koppel, Moshe, 1987, “Complexity, Depth, and Sophistication”, Complex Systems, 1(6): 1087–1091. [Koppel 1987 available online]

  • Kripke, Saul A., 1959, “A Completeness Theorem in Modal Logic”, The Journal of Symbolic Logic, 24(1): 1–14. doi:10.2307/2964568

  • –––, 1971, “Identity and Necessity”, in Milton K. Munitz (ed.), Identity and Individuation, New York: New York University Press, pp. 135-164.

  • Kuipers, Theo A.F. (ed.), 2007a, General Philosophy of Science: Focal Issues, Amsterdam: Elsevier Science Publishers.

  • –––, 2007b, “Explanation in Philosophy of Science”, in Kuipers 2007a.

  • Landauer, Rolf, 1961, “Irreversibility and heat generation in the computing process”, IBM Journal of Research and Development, 5(3): 183–191. doi:10.1147/rd.53.0183

  • –––, 1991, “Information is Physical”, Physics Today, 44(5): 23–29. doi: 10.1063/1.881299

  • Langton, Chris G., 1990, “Computation at the Edge of Chaos: Phase Transitions and Emergent Computation”, Physica D: Nonlinear Phenomena, 42(1–3): 12–37. doi:10.1016/0167-2789(90)90064-V

  • Laplace, Pierre Simon, Marquis de, 1814 [1902], A Philosophical Essay on Probabilities, F.W. Truscott and F.L. Emory (trans.), New York: J. Wiley; London: Chapman & Hall.

  • Lenski, Wolfgang, 2010, “Information: A Conceptual Investigation”, Information 2010, 1(2): 74–118. doi:10.3390/info1020074

  • Levin, Leonid A., 1973, “Universal Sequential Search Problems”, Problems of Information Transmission, 9(3): 265–266.

  • –––,1974, “Laws of Information Conservation (Non-Growth) and Aspects of the Foundation of Probability Theory”, Problems of Information Transmission, 10(3): 206–210.

  • –––, 1984, “Randomness Conservation Inequalities; Information and Independence in Mathematical Theories”, Information and Control, 61(1): 15–37. doi:10.1016/S0019-9958(84)80060-1

  • Li, Ming and Paul Vitányi, 2019, An Introduction to Kolmogorov Complexity and Its Applications, (Texts in Computer Science), New York: Springer New York. doi:10.1007/978-0-387-49820-1

  • Lloyd, Seth, 2000, “Ultimate Physical Limits to Computation”, Nature, 406(6799): 1047–1054. doi:10.1038/35023282

  • Lloyd, Seth and Y. Jack Ng, 2004, “Black Hole Computers”, Scientific American, 291(5): 52–61. doi:10.1038/scientificamerican1104-52

  • Locke, John, 1689, An Essay Concerning Human Understanding, J. W. Yolton (ed.), London: Dent; New York: Dutton, 1961. [Locke 1689 available online]

  • Long, B.R., 2014, “Information is intrinsically semantic but alethically neutral”, Synthese, 191: 3447–3467. doi:10.1007/s11229-014-0457-7

  • –––, 2019, “A Scientific Metaphysics and Ockham’s Razor”, Axiomathes, 5: 1–31. doi:10.1007/s10516-019-09430-5

  • Lundgren, B., 2019, “Does semantic information need to be truthful?”, Synthese, 196: 2885–2906. doi:10.1007/s11229-017-1587-5

  • Maat, Jaap, 2004, Philosophical Languages in the Seventeenth Century: Dalgarno, Wilkins, Leibniz, The New Synthese Historical Library (Book 54), Springer.

  • McAllister, James W., 2003, “Effective Complexity as a Measure of Information Content”, Philosophy of Science, 70(2): 302–307. doi:10.1086/375469

  • Mill, John Stuart, 1843, A System of Logic, London.

  • Montague, Richard, 2008, “Universal Grammar”, Theoria, 36(3): 373–398. doi:10.1111/j.1755-2567.1970.tb00434.x

  • Mugur-Schächter, Mioara, 2003, “Quantum Mechanics Versus a Method of Relativized Conceptualization”, in Quantum Mechanics, Mathematics, Cognition and Action, Mioara Mugur-Schächter and Alwyn van der Merwe (eds.), Dordrecht: Springer Netherlands, 109–307. doi:10.1007/0-306-48144-8_7

  • Napier, John, 1614, Mirifici Logarithmorum Canonis Descriptio (The Description of the Wonderful Canon of Logarithms), Edinburgh: Andre Hart. Translated and annotated by Ian Bruce, www.17centurymaths.com. [Napier 1614 [Bruce translation] available online].

  • Nielsen, Michael A. and Isaac L. Chuang, 2000, Quantum Computation and Quantum Information, Cambridge: Cambridge University Press.

  • Nies, André, 2009, Computability and Randomness, Oxford: Oxford University Press. doi:10.1093/acprof:oso/9780199230761.001.0001

  • Nyquist, H., 1924, “Certain Factors Affecting Telegraph Speed”, Bell System Technical Journal, 3(2): 324–346. doi:10.1002/j.1538-7305.1924.tb01361.x

  • Ong, Walter J., 1958, Ramus, Method, and the Decay of Dialogue, From the Art of Discourse to the Art of Reason, Cambridge MA: Harvard University Press.

  • Parikh, Rohit and Ramaswamy Ramanujam, 2003, “A Knowledge Based Semantics of Messages”, Journal of Logic, Language and Information, 12(4): 453–467. doi:10.1023/A:1025007018583

  • Peirce, Charles S., 1868, “Upon Logical Comprehension and Extension”, Proceedings of the American Academy of Arts and Sciences, 7: 416–432. doi:10.2307/20179572

  • –––, 1886 [1993], “ Letter Peirce to A. Marquand”, Reprinted in Writings of Charles S. Peirce: A Chronological Edition, Volume 5: 1884–1886, Indianapolis: Indiana University Press, pp. 424–427. See also Arthur W. Burks, 1978, “Book Review: ‘The New Elements of Mathematics’ by Charles S. Peirce, Carolyn Eisele (editor)”, Bulletin of the American Mathematical Society, 84(5): 913–919. doi:10.1090/S0002-9904-1978-14533-9

  • Popper, Karl, 1934, The Logic of Scientific Discovery, (Logik der Forschung), English translation 1959, London: Hutchison. Reprinted 1977.

  • Putnam, Hilary, 1988, Representation and reality, Cambridge, MA: The MIT Press.

  • Quine, W.V.O., 1951, “Main Trends in Recent Philosophy: Two Dogmas of Empiricism”, The Philosophical Review, 60(1): 20–43. Reprinted in his 1953 From a Logical Point of View, Cambridge, MA: Harvard University Press. doi:10.2307/2181906

  • Rathmanner, Samuel and Marcus Hutter, 2011, “A Philosophical Treatise of Universal Induction”, Entropy, 13(6): 1076–1136. doi:10.3390/e13061076

  • Rédei, Miklós and Michael Stöltzner (eds.), 2001, John von Neumann and the Foundations of Quantum Physics, (Vienna Circle Institute Yearbook, 8), Dordrecht: Kluwer.

  • Rényi, Alfréd, 1961, “On Measures of Entropy and Information”, in Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Contributions to the Theory of Statistics, Berkeley, CA: The Regents of the University of California, pp. 547–561. [Rényi 1961 available online]

  • Rissanen, J., 1978, “Modeling by Shortest Data Description”, Automatica, 14(5): 465–471. doi:10.1016/0005-1098(78)90005-5

  • –––, 1989, Stochastic Complexity in Statistical Inquiry, (World Scientific Series in Computer Science, 15), Singapore: World Scientific.

  • Rooy, Robert van, 2004, “Signalling Games Select Horn Strategies”, Linguistics and Philosophy, 27(4): 493–527. doi:10.1023/B:LING.0000024403.88733.3f

  • Russell, Bertrand, 1905, “On Denoting”, Mind, new series, 14(4): 479–493. doi:10.1093/mind/XIV.4.479

  • Schmandt-Besserat, Denise, 1992, Before Writing (Volume I: From Counting to Cuneiform), Austin, TX: University of Texas Press.

  • Schmidhuber, Jüurgen, 1997a, “Low-Complexity Art”, Leonardo, 30(2): 97–103. doi:10.2307/1576418

  • –––, 1997b, “A Computer Scientist’s View of Life, the Universe, and Everything”, in Foundations of Computer Science, (Lecture Notes in Computer Science, 1337), Christian Freksa, Matthias Jantzen, and Rüdiger Valk (eds.), Berlin, Heidelberg: Springer Berlin Heidelberg, 201–208. doi:10.1007/BFb0052088

  • Schnelle, H., 1976, “Information”, in Joachim Ritter (ed.), Historisches Wörterbuch der Philosophie, IV [Historical dictionary of philosophy, IV] (pp. 116–117). Stuttgart, Germany: Schwabe.

  • Searle, John R., 1990, “Is the Brain a Digital Computer?”, Proceedings and Addresses of the American Philosophical Association, 64(3): 21–37. doi:10.2307/3130074

  • Seiffert, Helmut, 1968, Information über die Information [Information about information] Munich: Beck.

  • Shannon, Claude E., 1948, “A Mathematical Theory of Communication”, Bell System Technical Journal, 27(3): 379–423 & 27(4): 623–656. doi:10.1002/j.1538-7305.1948.tb01338.x & doi:10.1002/j.1538-7305.1948.tb00917.x

  • Shannon, Claude E. and Warren Weaver, 1949, The Mathematical Theory of Communication, Urbana, IL: University of Illinois Press.

  • Shor, Peter W., 1997, “Polynomial-Time Algorithms for Prime Factorization and Discrete Logarithms on a Quantum Computer”, SIAM Journal on Computing, 26(5): 1484–1509. doi:10.1137/S0097539795293172

  • Simon, J.C. and Olivier Dubois, 1989, “Number of Solutions of Satisfiability Instances – Applications to Knowledge Bases”, International Journal of Pattern Recognition and Artificial Intelligence, 3(1): 53–65. doi:10.1142/S0218001489000061

  • Simondon, Gilbert, 1989, L’individuation Psychique et Collective: À La Lumière des Notions de Forme, Information, Potentiel et Métastabilité (L’Invention Philosophique), Paris: Aubier.

  • Singh, Simon, 1999, The Code Book: The Science of Secrecy from Ancient Egypt to Quantum Cryptography, New York: Anchor Books.

  • Solomonoff, R. J., 1960, “A Preliminary Report on a General Theory of Inductive Inference”. Report ZTB-138, Cambridge, MA: Zator. [Solomonoff 1960 available online]

  • –––, 1964a, “A Formal Theory of Inductive Inference. Part I”, Information and Control, 7(1): 1–22. doi:10.1016/S0019-9958(64)90223-2

  • –––, 1964b, “A Formal Theory of Inductive Inference. Part II”, Information and Control, 7(2): 224–254. doi:10.1016/S0019-9958(64)90131-7

  • –––, 1997, “The Discovery of Algorithmic Probability”, Journal of Computer and System Sciences, 55(1): 73–88. doi:10.1006/jcss.1997.1500

  • Stalnaker, Richard, 1984, Inquiry, Cambridge, MA: MIT Press.

  • Stifel, Michael, 1544, Arithmetica integra, Nuremberg: Johan Petreium.

  • Tarski, Alfred, 1944, “The Semantic Conception of Truth: And the Foundations of Semantics”, Philosophy and Phenomenological Research, 4(3): 341–376. doi:10.2307/2102968

  • Tsallis, Constantino, 1988, “Possible Generalization of Boltzmann-Gibbs Statistics”, Journal of Statistical Physics, 52(1–2): 479–487. doi:10.1007/BF01016429

  • Turing, A. M., 1937, “On Computable Numbers, with an Application to the Entscheidungsproblem”, Proceedings of the London Mathematical Society, s2-42(1): 230–265. doi:10.1112/plms/s2-42.1.230

  • Valiant, Leslie G., 2009, “Evolvability”, Journal of the ACM, 56(1): Article 3. doi:10.1145/1462153.1462156

  • van Benthem, Johan F.A.K., 1990, “Kunstmatige Intelligentie: Een Voortzetting van de Filosofie met Andere Middelen”, Algemeen Nederlands Tijdschrift voor Wijsbegeerte, 82: 83–100.

  • –––, 2006, “Epistemic Logic and Epistemology: The State of Their Affairs”, Philosophical Studies, 128(1): 49–76. doi:10.1007/s11098-005-4052-0

  • van Benthem, Johan and Robert van Rooy, 2003, “Connecting the Different Faces of Information”, Journal of Logic, Language and Information, 12(4): 375–379. doi:10.1023/A:1025026116766

  • van Peursen, Cornelis Anthonie, 1987, “Christian Wolff’s Philosophy of Contingent Reality”, Journal of the History of Philosophy, 25(1): 69–82. doi:10.1353/hph.1987.0005

  • van Rooij, Robert, 2003, “Questioning to resolve decision problems”, Linguistics and Philosophy, 26: 727–763.

  • Vereshchagin, Nikolai K. and Paul M.B. Vitányi, 2004, “Kolmogorov’s Structure Functions and Model Selection”, IEEE Transactions on Information Theory, 50(12): 3265–3290. doi:10.1109/TIT.2004.838346

  • Verlinde, Erik, 2011, “On the Origin of Gravity and the Laws of Newton”, Journal of High Energy Physics, 2011(4). doi:10.1007/JHEP04(2011)029

  • –––, 2017, “Emergent Gravity and the Dark Universe”, SciPost Physics, 2(3): 016. doi:10.21468/SciPostPhys.2.3.016

  • Vigo, Ronaldo, 2011, “Representational Information: A New General Notion and Measure of Information”, Information Sciences, 181(21): 4847–4859. doi:10.1016/j.ins.2011.05.020

  • –––, 2012, “Complexity over Uncertainty in Generalized Representational Information Theory (GRIT): A Structure-Sensitive General Theory of Information”, Information, 4(1): 1–30. doi:10.3390/info4010001

  • Vitányi, Paul M., 2006, “Meaningful Information”, IEEE Transactions on Information Theory, 52(10): 4617–4626. doi:10.1109/TIT.2006.881729 [Vitányi 2006 available online].

  • Vogel, Cornelia Johanna de, 1968, Plato: De filosoof van het transcendente, Baarn: Het Wereldvenster.

  • Von Neumann, John, 1932, Mathematische Grundlagen der Quantenmechanik, Berlin: Springer.

  • Wallace, C. S., 2005, Statistical and Inductive Inference by Minimum Message Length, Berlin: Springer. doi:10.1007/0-387-27656-4

  • Wheeler, John Archibald, 1990, “Information, Physics, Quantum: The Search for Links”, in Complexity, Entropy and the Physics of Information, Wojciech H. Zurek (ed.), Boulder, CO: Westview Press, 309–336. [Wheeler 1990 available online]

  • Whitehead, Alfred and Bertrand Russell, 1910, 1912, 1913, Principia Mathematica, 3 vols, Cambridge: Cambridge University Press; 2nd edn, 1925 (Vol. 1), 1927 (Vols 2, 3).

  • Wilkins, John, 1668, “An Essay towards a Real Character, and a Philosophical Language”, London. [Wilkins 1668 available online]

  • Windelband, Wilhelm, 1903, Lehrbuch der Geschichte der Philosophie, Tübingen: J.C.B. Mohr.

  • Wolff, J. Gerard, 2006, Unifying Computing and Cognition, Menai Bridge: CognitionResearch.org.uk.

  • Wolfram, Stephen, 2002, A New Kind of Science, Champaign, IL: Wolfram Media.

  • Wolpert, David H. and William Macready, 2007, “Using Self-Dissimilarity to Quantify Complexity”, Complexity, 12(3): 77–85. doi:10.1002/cplx.20165

  • Wu, Kun, 2010, “The Basic Theory of the Philosophy of Information”, in Proceedings of the 4th International Conference on the Foundations of Information Science, Beijing, China, Pp. 21–24.

  • –––, 2016, “The Interaction and Convergence of the Philosophy and Science of Information”, Philosophies, 1(3): 228–244. doi:10.3390/philosophies1030228

  • Zuse, Konrad, 1969, Rechnender Raum, Braunschweig: Friedrich Vieweg & Sohn. Translated as Calculating Space, MIT Technical Translation AZT-70-164-GEMIT, MIT (Proj. MAC), Cambridge, MA, Feb. 1970. English revised by A. German and H. Zenil 2012. [Zuse 1969 [2012] available online]

Academic Tools

Other Internet Resources

Aristotle, Special Topics: causality | Church-Turing Thesis | epistemic paradoxes | Frege, Gottlob: controversy with Hilbert | Frege, Gottlob: theorem and foundations for arithmetic | Gödel, Kurt: incompleteness theorems | information: biological | information: semantic conceptions of | information processing: and thermodynamic entropy | logic: and information | logic: substructural | mathematics, philosophy of | Ockham [Occam], William | Plato: middle period metaphysics and epistemology | Port Royal Logic | properties | quantum theory: quantum entanglement and information | rationalism vs. empiricism | recursive functions | rigid designators | Russell’s paradox | set theory | set theory: alternative axiomatic theories | set theory: continuum hypothesis | time: thermodynamic asymmetry in

Copyright © 2023 by Pieter Adriaans <pieter@pieter-adriaans.com>

最后更新于

Logo

道长哲学研讨会 2024