医学哲学 medicine, philosophy of (Julian Reiss and Rachel A. Ankeny)

首次发表于 2016 年 6 月 6 日星期一

医学哲学是一个旨在探索健康科学领域内的理论、研究和实践中的基本问题的领域，特别关注形而上学和认识论的主题。其历史根源可以追溯到古代，例如希波克拉底文集等来源，自 19 世纪以来，医学哲学的关键概念一直在学术界进行广泛的讨论。过去曾就是否存在一个被称为“医学哲学”的独立领域进行辩论（例如，卡普兰 1992 年），但由于现在有专门的期刊和专业组织、相对成熟的学术文献体系以及独特的问题和难题，可以辩称医学哲学已经确立起来。尽管伦理学和价值观是医学哲学中许多问题的一部分，但生物伦理学通常被认为是一个独立的领域，因此本文不涉及该领域（但请参阅有关理论和生物伦理学的条目）。话虽如此，医学哲学作为生物伦理学内部许多辩论的基础，分析了在生物伦理学中经常涉及的医学实践的基本组成部分，如疾病概念。医学哲学还对科学哲学的一般问题，特别是对解释、因果关系和实验以及科学知识应用的辩论做出了重要贡献。最后，医学哲学对医学和健康科学领域的研究和实践方法和目标的讨论也做出了贡献。本文主要关注西方传统中的医学哲学，尽管关于非西方和替代医学实践的哲学文献正在增长，但同时利用其他学科视角的相关学术出版物。

1. 引言：我们应该如何定义健康和疾病？

在医学哲学中，关于健康和疾病的基本概念的争论是一个根本性且历史悠久的问题（参见健康和疾病的概念）。这些陈述似乎很明显：当人们感到不适时，他们会寻求医疗专业人员的治疗，而临床医生则会治疗患者以帮助他们恢复或维持健康。但人们寻求医疗专业人员的建议和帮助还有其他原因，比如无法被视为疾病状态的怀孕，以及无症状的高血压。因此，疾病和健康之间的界线是非常模糊的，部分原因是人类群体中存在着广泛的变异，并且存在关于许多疾病概念是否是社会构建的争议。进一步复杂化的因素之一是，健康和疾病的概念通常涉及描述性和评价性两个方面（Engelhardt 1975），这在普通人和医疗专业人员中都是常见的用法。

探索这些区别在认识论和道德上仍然非常重要，因为这些定义影响人们何时何地寻求医疗治疗，以及社会是否将他们视为“病人”，包括在某些卫生系统中是否允许他们接受治疗。正如特里斯特拉姆·恩格尔哈特所主张的，

疾病的概念不仅用于描述和解释，还用于敦促行动。它指示了一种不可取的状态，需要克服。（1975 年：127）

因此，我们如何定义疾病、健康和相关概念不仅仅是一种哲学或理论上的兴趣，而且出于伦理原因至关重要，特别是为了确保医学对人们的福祉做出贡献，并出于社会原因，因为一个人的福祉与他是否能过上美好的生活密切相关。

术语“疾病”和“疾病”通常可以互换使用，尤其是在普通大众中，但也包括医务人员。一般认为，“疾病”指的是任何导致身体某个部位或整个身体出现“不适”或“缺乏舒适”的状况。这种状况可以由内部功能障碍（如自身免疫性疾病）、外部因素（如感染或环境引起的疾病）或这些因素的组合引起，正如许多所谓的“遗传”疾病的情况（关于遗传疾病及相关问题的观点，参见 Hesslow 1984、Ankeny 2002、Juengst 2004）。有人认为，在疾病和许多人不认为是疾病的其他类型的不适之间，在哲学上或科学上没有令人信服的区别，比如身材矮小、肥胖或偏头痛（Reznek 1987）。“疾病”这个概念在大多数文化中都很常见，甚至可能是一个普遍的概念（Fabrega 1979）。它是一个有用的概念，因为它可以清晰地关注困扰特定人类的问题，并暗示医学可以帮助控制或改善这些问题。相比之下，“疾病”通常用于描述状况的非客观特征，如主观感觉的疼痛和不适。它经常指的是在特定文化中被判断为不可取和不受欢迎的行为变化，从而导致该文化的成员寻求帮助，通常是从该文化中被认定为某种类型的健康提供者的专业人士那里寻求帮助（关于“疾病、疾病、疾病”这三个概念的复杂性的一些问题，参见 Hofmann 2002）。

术语“疾病”强调了疾病的社会方面，并通常突出了社会对特定状况的价值缺乏重视。对疾病状况的调查不仅是为了科学理解，而且希望纠正、预防或关心那些被贬低或使人生病的状态。社会学家塔尔科特·帕森斯（Talcott Parsons）的经典作品（1951 年）展示了“病人角色”如何减轻了某些社会责任（例如，允许人们休假或避免家庭责任），并减轻了因生病而受到的责备（尽管不一定是因为首次生病）。尽管这个模型存在例外和反例（例如，一些慢性疾病），但它符合我们普遍接受的社会观念，即生病（和健康）的含义，以及伴随将某人定为病人的道德义务和责任。

在近期哲学学术界对医学哲学的研究中，主导的方法认为疾病概念涉及对人体生理的经验判断（Boorse 1975, 1977, 1997; Scadding 1990; Wachbroit 1994; Thagard 1999; Ereshefsky 2009）。这些所谓的“自然主义者”（有时也被称为“客观主义者”，例如参见 Kitcher 1997，或“描述主义者”）关注的是对所有人类（或更准确地说是属于特定年龄组或相同性别的人类）而言，在生物学上的自然和正常功能。他们认为医学应该致力于发现和描述使我们能够定义各种疾病的潜在生物学标准。克里斯托弗·布尔斯（Christopher Boorse）修订后的解释在文献中影响最大，他声称健康是没有疾病，而疾病是一种内部状态，要么损害正常功能能力，要么是由环境引起的功能能力限制（Boorse 1997）。 “正常功能”是以参考类为基础定义的，参考类是具有统一功能设计的自然类群（即特定年龄组和性别），因此当一个过程或部分（如器官）以正常方式运作时，它对包含该过程或部分的个体的生存和繁殖做出了统计上典型的贡献。他的定义还特别涉及环境，以不排除环境引起的常见病症，例如龋齿。

许多人批评了这些方法（仅举几例，Goosens 1980；Reznek 1987；Wakefield 1992；Amundson 2000；Cooper 2002），以及更一般的自然主义疾病解释。正如他们所指出的，自然主义解释并未反映我们对“疾病”和“健康”这些术语的典型用法，因为它们忽略了任何塑造对某人是否健康的判断的价值观。自然主义的典型反例是手淫，在 18 世纪和 19 世纪被广泛认为是一种严重的疾病实体（Engelhardt 1974），以及同性恋，在 20 世纪大部分时间被美国精神病学会的《诊断与统计手册》（DSM）中被归类为一种疾病。这些反例之所以被重新定义为非疾病状态，并不是因为对这些存在状态的新生物学信息，而是因为社会道德价值观的变化。自然主义者对这类论点的回应是指出同性恋和手淫从一开始就不是疾病，而是错误的分类，因此这些例子不会影响他们所支持的疾病定义在严格应用时的有效性。

自然主义的一个更有力的批评是，尽管其支持者声称仅依靠生物科学来生成他们对健康和疾病的定义，但这些定义隐含地依赖于统计和理论正常性的等式（或者说生物体的“自然状态”），至少在布尔斯的阐述中如此（Ereshefsky 2009）。但是，生物学并没有直接给出这些规范，而且“物种设计”中没有任何绝对标准（正如许多生物学哲学家所争论的），尽管布尔斯声称有。即使我们根据年龄或性别来考虑一个亚群体（Sober 1980），也没有特定的基因是给定人群的“自然”基因。标准生理学也没有提供这些规范（Ereshefsky 2009），主要是因为生理学描述通常是对器官及其功能的理想化和简化描述，而不是对其自然状态的描述（Wachbroit 1994）。Rachel Cooper（2002）有力地主张，找到一个可接受的正常功能（以及相应的功能障碍）概念是布尔斯式解释的主要问题，她认为他的分析应该侧重于功能障碍的倾向。这个论点利用了一些反例，比如干扰正常功能的活动，比如服用避孕药，并且这些活动并不是疾病，以及服用药物控制慢性疾病的人们因此能够正常功能。Elselijn Kingma（2007, 2010）批评布尔斯对参考类的客观可发现性的诉求，认为这些无法在没有参考规范判断的情况下建立起来。关于疾病的自然主义解释（例如 Lennox 1995 的观点），常常被指出的另一个问题是其基本假设，即生物适应性（生存和繁殖）是人类生活的目标，以及医学只关注生物适应性，而不关注其他人类目标和价值观，其中一些可能与生物适应性的目标相抵触或对其毫无影响，例如缓解疼痛。

在哲学文献中，对疾病和健康的自然主义/描述主义/客观主义定义的替代方法可以大致称为“规范性”或“建构主义”。大多数支持者都同意，我们必须明确定义“疾病”和“健康”的术语，并且我们的定义是我们价值观的一种表现（Margolis 1976; Goosens 1980; Sedgewick 1982; Engelhardt 1986）。因此，定义各种疾病状况不仅仅是发现自然界中的模式，而是需要一系列规范性价值判断和发明适当的术语来描述这些状况。相反，健康涉及到我们对价值和我们想要能够做到的事情的共同判断；疾病是与这些社会规范的背离。规范主义者认为他们的定义不仅在哲学上有效，而且反映了与疾病和健康相关的术语在普通语言和医学专业人员中的实际使用。他们还声称，这种方法更能够解释为什么随着我们的价值观改变，某些状况在历史进程中可以以不同的方式被看待，尽管我们对这些状况的基本生物学理论相对变化较少，例如同性恋。此外，他们能够适应所谓的民间疾病或文化相关综合症的例子，例如一些美洲原住民部落中的鬼病、地中海地区的邪眼，或者拉美和南美文化中的苏斯托，因为他们的理论明确允许跨文化对疾病和健康的理解存在差异。

然而，规范主义也引发了一系列典型的批评：它无法充分应对那些普遍认为某种状态不可取的情况（比如酗酒或病态肥胖），但却没有类似的普遍认同该状态实际上是一种疾病状况（Ershefsky 2009）。另一个经典的反对意见是规范主义的解释不能让我们对疾病类别（比如“逃奴症”）的有效性做出回顾性的判断（该疾病在 19 世纪常见于美国奴隶中，主要症状是逃跑倾向）（Cartwright 1851）。规范主义者可以指出价值观的变化来解释对这种疾病状况的信仰被放弃，但不能声称医生们在将逃奴症视为疾病方面在任何意义上是“错误”的。因此，我们在日常使用“疾病”和“健康”这些术语时，涉及的内容不仅仅是价值观或规范条件。

医学的混合理论试图克服自然主义和规范主义方法中的差距，通过混合两种理论的方面（Reznek 1987; Wakefield 1992; Caplan 1992）。例如，Jerome Wakefield（1992, 1996, 2007）特别写到精神疾病时，指出一个疾病应该被视为一种疾病，如果它既对人造成伤害或降低价值，又是由于某种内部机制未能履行其自然功能而导致的（因此，例如，被诊断为“抑郁症”的很多情况都不会被视为疾病状况）。而规范主义者则认为任何不良状态都应被称为疾病状况，这些混合标准则排除了将非生物学的状况称为“疾病”。然后，各种边缘情况可能被认为是健康的，而不是潜在的疾病，因此可能不符合传统医学的治疗条件。例如，那些由于进化过程而不再具有功能的器官或结构不能发生故障，因此不能患病。许多混合方法也保留了对其自然主义组成部分的太多假设，因此被批评依赖于生物学无法支持的自然功能概念。

与疾病和疾病的概念相比，健康的概念相对缺乏理论化，可能部分原因是因为它引发了比这些描述其缺失的概念更复杂的问题。一个人可以对健康持简单的自然主义观点，并将其定义为功能生物学的产物；然而，这个论点将遭受到上述自然主义的批评（参见 Hare 1986）。经典健康定义的来源来自世界卫生组织（WHO）的宪章，该宪章定义了健康

一种完全的身体、心理和社会福祉状态，不仅仅是没有疾病或虚弱的状态。（世界卫生组织 1948 年：序言）

注意，根据这个表述，健康不仅仅是没有疾病，而是一种积极的幸福和繁荣的状态（本身就是含糊不清的概念）。虽然生活质量经常被认为是健康定义和理论的关键，但许多评论家对类似世界卫生组织术语的定义的广泛性持谨慎态度，因为它似乎涵盖了许多超出个体健康范畴的事物，这些事物可能会对个体的“幸福”产生（或减少）影响。

对健康的更狭义定义将其合法领域确定为医学旨在恢复的状态，其相反面是“不健康”或未能健康，而不仅仅是疾病本身（卡斯 1975 年）。根据这样的定义，医学不应从事美容手术、选择性终止妊娠或类似的程序，因为这些程序（严格来说）并不旨在恢复健康。卡罗琳·惠特贝克（1981 年）将健康定义为个体的心理和生理能力，使其能够追求各种目标和项目。因此，她的解释是一种混合方法，因为她将生物能力置于她对健康定义的核心位置，但仅仅是因为它们帮助个体繁荣和按照他们的意愿生活。这里的健康概念远远超出了没有疾病的范畴；例如，一个人在患有特定疾病的情况下仍然可以拥有很高的健康水平。

对于定义健康的哲学方法之一，乔治·坎吉耶姆（1991 年，基于 20 世纪 40 年代的工作）的观点备受讨论，他反对将健康等同于正常。他指出，规范的概念无法客观地定义，也无法通过科学方法确定。生理学涉及规范的科学，但即使是基于科学的医学方法也不应仅仅关注规范，与克洛德·伯纳德（1865 年）对医学的理想愿景相反。米歇尔·福柯（1963 年）详细探讨了正常和病态之间的区别如何根深蒂固的历史，这是他现在经典的作品。福柯和坎吉耶姆都试图揭示价值观如何融入现代医学的认识论框架之中。

康吉耶姆论述的关键之一是，我们对“正常”一词的使用常常混淆了两个不同的含义：通常或典型的含义，以及应该如何的含义。因此，他认为，没有纯粹科学或客观的正常定义可以让我们将生理学理论应用于医学实践，并且我们也不能将健康定义为正常。相反，根据他的观点，健康是赋予生存价值的东西，特别是在一组环境条件下的适应性：“健康就是能够生病和康复；这是一种生物上的奢侈”（1991 年：199）。因此，疾病是对环境变化的容忍水平的降低。正如玛丽·泰尔斯（1993 年）所指出的，这种对健康而不是正常的强调是丰富当代预防医学和更普遍地发展积极健康观念的辩论的特别有用的工具。哈维·卡雷尔（2007 年，2008 年）对这一思路做出了贡献，发展了一种现象学的健康观念，强调健康应该被理解为自己身体的生活体验，而不仅仅是抽象的生物学术语中的统计正常身体功能。因此，她发展了一项明确的修正主义项目，强调现象学的视角可以容纳那些在生物学上生病但健康的情况，比如慢性疾病。

一些作者提出了更极端的观点，认为寻求疾病概念注定是徒劳无功的努力。例如，彼得·施瓦茨（2007）认为，在生物医学科学中，并不存在一个足够一致的基本疾病概念可以进行分析，不同的疾病概念在不同的背景下可能是有用的。一些哲学家认为，在临床决策中，寻求“疾病”和“健康”的正确定义是分散注意力和无关紧要的：正如格蒙德·赫斯洛所说，“对于大多数决策来说，健康/疾病的区分是无关紧要的，它代表了一个概念上的束缚”（1993: 1）。关键是一个特定状态是否对其承载者有益，而不是这个人是否真的患有疾病或缺陷。例如，有人提出将“病症”作为“疾病”的更合适替代词（Clouser，Culver 和 Gert 1981），并且应该扩展到包括所有疾病、伤害、残疾、功能障碍，甚至无症状的情况。当一个人出现问题时，就存在病症；无论原因是精神还是身体，只要这种情况是其承载者的一部分，而不是与其分离或外在的，就可以称之为病症。这种方法的明显优势在于它统一了一系列直观上相关的现象和描述。缺点包括它在一定程度上依赖于客观主义的疾病观，因此受到了一些自然主义版本中所困扰的困难（有关对这场辩论的挑衅性反应，请参见沃拉尔和沃拉尔 2001 年的观点）。

Marc Ereshefsky（2009）描述了一种定义疾病和健康的替代方法，即通过制定不同的状态描述（对生理或心理状态的描述，同时避免对其自然性、功能性或正常性提出任何主张）和规范性主张（对我们是否重视或贬低特定的生理或心理状态进行明确判断）。这种方法的优点在于，它能更清晰地解释有争议的“疾病”状况，因为它避免了明确应用该术语的需要。它还迫使我们准确定位对理解和治疗患有疾病的人来说至关重要的关键问题。但最有说服力的是，他认为这种方法使我们能够区分人类的当前状态与我们希望提升或减弱的状态，而术语“疾病”和“健康”并不能充分突显这一关键区别。

简言之，医学哲学家们继续就一系列解释进行辩论：总体而言，最激烈的分歧集中在是否更倾向于采用更客观、基于生物学的、可普遍适用的解释，还是将社会和经验性观点纳入其中。显然，没有一种解释能满足所有完整而强大的哲学解释的要求，同时又能对从业者有所帮助；尽管有人对后者是否应该成为要求提出质疑，但许多人认为医学哲学应该对实际临床实践做出响应并提供帮助。

2. 有争议和有争议的疾病类别

在医学界和更广泛的社会中，有些疾病类别在被认可、命名、分类和合法化方面并不直接。近年来，关于一系列疾病，包括莱姆病、纤维肌痛和慢性疲劳综合征（CFS）等，一直存在长期的争论（有关这些和相关疾病的历史讨论，请参见 Aronowitz 1998, 2001; Shorter 2008）。以 CFS 为例：其主要症状是在至少六个月的时间内，劳累后出现疲劳，但患者可能在身体的不同系统中有各种各样的不适；病情的严重程度与症状的范围一样广泛。这种疾病与其他几种有争议的综合征有关，并有时被等同于它们，尤其是肌肉脑炎和纤维肌痛，以及其他定义不明确的疾病，如多重化学敏感症和肠易激综合征；还有一些更受欢迎（并带有贬义）的标签，比如雅皮病。关于 CFS 的病因或基础的确凿证据一直难以找到，在缺乏因果解释的情况下，准确的诊断和有效的治疗往往难以获得。因此，由于难以证明存在一个明确的疾病状况，缺乏传统的临床证据支持，许多人认为这种疾病是非法的，并且在不同地区有不同的地位（请参见 Ankeny 和 Mackenzie 2016）。这些问题严重影响了受此病症影响的人们的生活，以及认为适当提供给他们的护理。

精神疾病（以及“精神健康”这个术语本身）对于医学从业者和医学哲学家来说，传统上也带来了相当大的分类和概念化问题。许多作者主张必须区分精神疾病和身体疾病（Macklin 1972），特别是因为将某种状况标记为精神或心理疾病所带来的道德含义。精神病学是一个历史上充满价值判断的领域，其中许多判断是相当可疑的。长期以来，人们一直使用精神疾病来对社会非常规行为进行分类，以及对那些没有明显有机原因且不符合我们主导的生物医学模型的疾病状况进行分类。许多学者（例如 Ritchie 1989；Gaines 1992；Mezzich 等 1996；Horwitz 和 Wakefield 2007；Demazeux 和 Singy 2015）批评了美国精神病学会出版的各个版本的《诊断与统计手册》的方法和基本假设，该手册对许多从业者来说是一本“圣经”，并且在很大程度上对公众产生影响，例如对谁可以寻求治疗的影响。DSM 中有争议的问题的关键例子包括修订过程的高度政治化性质，特定诊断类别中存在的各种文化、性别偏见，以及分类系统相对较弱的可靠性和有效性。

一个关键问题是生物医学模型是否是心理或精神疾病及其治疗最合适的方法。一些理论家主张疾病的自然主义解释，尤其是托马斯·萨斯（Thomas Szasz）（1961 年，1973 年，1987 年）。因此，他声称“精神疾病”是一个神话，不存在，因为它们不是由组织损伤引起的；在他看来，所有疾病都必须与这种物理损伤相关联。因此，他认为精神疾病的概念是一个规定性概念，被当作一个纯粹描述性概念使用，同时也是一个伪装成解释性概念的辩护性概念。这些结论使他对精神病学实践进行了高度批判性分析，并将这些形式的痛苦重新归类为“生活中的问题”，而不是疾病。然而，在他的解释中，并不总是清楚他对这些主张的证据是什么，特别是他是在原则上提出反对意见，还是基于对精神疾病患者虐待历史的批评，以及由于采用医学模型而对他们造成的不公。此外，一些人指出，一些精神疾病确实与生理上可检测和其他类型的生物异常相关。例如，孪生研究表明，遗传因素是精神分裂症等通常被认为是精神疾病的病因的主要因素，尽管显然并不是所有符合当代精神病学标准的疾病都适用于这个模型。

最近，一种突出的功能主义方法来解释心理障碍是 Wakefield（1992, 1996, 2007）的观点，正如上文所讨论的，他认为心理障碍最好被理解为“有害”的功能障碍，这使得在生物功能（以进化术语衡量）方面有一个假定上无价值的基础，只有在判断某些功能障碍是否对其承载者有害时才会涉及价值判断。这样的解释在某种程度上受到了类似于对 Boorsian 解释的分析的批评，强调功能和功能障碍实际上无法独立于价值术语进行定义，但 Wakefield 的解释也在其实际影响方面受到了质疑（例如，Sadler 和 Agich 1995），以及功能失调是否是心理障碍的必要组成部分（Murphy 和 Woolfolk 2000）。

其他作者，尤其是乔治·恩格尔（1977 年），主张在更广泛的生物心理社会模型下统一我们对心理和身体疾病的理解。这样的模型将使临床医生考虑到导致疾病的身体、心理和社会因素，与传统的生物医学模型相比，后者被指责过于还原主义而不是整体主义。据称，这种解释将更有效地处理边缘案例，包括那些被告知由于异常实验室结果或类似情况而需要治疗的人，但他们感觉良好，以及那些表面上没有潜在躯体疾病状况但感觉不适的人。因此，这种解释没有对身体和心理（甚至社会）之间进行任何明确的区分，将适当的治疗方法或途径的问题留给医生和患者决定。恩格尔有力地为这种解释辩护，认为它不仅适用于临床工作，还适用于医学研究和教学。可以说，这种解释已经在当前许多医疗实践和教学中被隐含地（并经常明确地）采用，尽管目前尚不清楚它在生物医学研究中是否有很大影响，后者往往更倾向于保持更还原主义的性质。

3. 医学中的理论、原因和解释

广义上，没有被广泛接受的科学理论概念。逻辑实证主义者认为理论是一组命题，在某一点上可以用一阶逻辑进行形式化，而在另一点上可以作为集合论模型的类。在这里，我们可以区分理论的两个意义，一个是较狭义的意义，一个是较广义的意义。在较狭义的意义上，理论包括一组符号和概念，用于表示领域中的实体，以及一组描述这些实体行为的简单通用原则。在较广义的意义上，理论指的是用于解释给定领域现象的任何陈述或一组陈述。

在医学中，可以在较狭义和较广义上找到理论。例如，体液学认为人体充满了四种基本物质或“体液”：黑胆汁、黄胆汁、痰液和血液。体液在健康人体内保持平衡；疾病是由于一种或多种体液过剩或不足所解释的。体液学起源古老，对西方医学影响深远，一直延续到 18 世纪。东方医学也有类似的思维体系。例如，印度的阿育吠陀医学是关于三种主要体液（风、胆汁和痰液）的理论，疾病同样被理解为体液失衡（Magner 2002）。

在当代西方医学中，这些高度统一和普遍的理论起到了有限的作用。进化医学和达尔文医学可能是例外，但目前它们充其量只是新兴领域（参见 Méthot 2011）。相反，当代西方医学研究人员和从业者试图用关于病因的机械假设来解释医学结果——通过关于疾病的假设来解释症状，通过关于前因的假设来解释疾病，通过关于环境或行为条件变化的假设来解释流行病（Thagard 2006）。这些当代医学理论与古代方法的区别在于，症状、疾病和流行病的原因原则上可以像结果本身一样多种多样；而在古代方法中，体液平衡的缺乏是唯一可能的原因。在当代西方医学中，除了有某种原因或一组原因负责解释结果之外，对解释结果的原因的数量、形式或作用方式没有任何假设。

并非每个原因都具有相同的解释性。例如，一个人的死亡可以被描述为心脏停搏、肺栓塞或肺癌。肺癌可能是由基因突变、肺组织中的致癌物质沉积和吸烟在其因果历史中引起的。而吸烟则可能是由吸烟者易受成瘾行为、同伴压力和社会经济环境引起的，让我们假设如此。在形式为“X 导致（或导致）Y”的许多候选假设中，其中 Y 指的是患者的死亡，哪个能最好地解释结果？对于这个问题没有绝对的答案。医学解释的好坏部分取决于给出解释的背景（参见科学解释条目）。当被问到“为什么会发生 Y？”时，法医可能会提到肺栓塞，患者的医生可能会提到肺癌，而流行病学家可能会提到患者的吸烟情况。医学解释的适当性与我们干预相关因素的能力有关。通过对患者进行血栓筛查可以预防肺栓塞。通过戒烟可以预防肺组织中致癌物质的积累。相比之下，尽管某些类型的基因突变在任何癌症的因果历史中都起作用，但目前对于大多数临床医生来说，这种突变并不具有很大的解释兴趣，因为这不是他们可以轻易干预的因素。目前有大量的医学研究致力于识别与各种癌症亚型相关的突变，并利用这些突变来开发有针对性的治疗和干预措施，以及提供更准确的预后信息。因此，医学解释与我们在控制、预防和控制结果方面的工具性利益密切相关（Whitbeck 1977）。

目前在医学哲学中争论的一个问题是，是否有必要（或者没有必要）引用有关导致医学结果的机制的信息来解释这个结果。虽然机制通常以因果术语来描述（例如，Glennan 2002; Woodward 2002; Steel 2008），但并不是每个原因都通过某种机制起作用或者是某种机制的一部分，机制被理解为一种或多或少复杂的因果因素排列，这些因素能够产生变化（例如，Machamer et al. 2000）。缺乏，例如缺乏阳光，可以导致医学结果，但与之无关的连续机制从因果到效果（Reiss 2012）。尽管缺乏对机制的知识或错误的假设，神经科学解释通常是可以接受的（Weber 2008）。然而，我们可以问一下，机械解释是否普遍优于非机械因果解释。

许多医学研究人员和医学哲学家都奉行一种还原主义范式，即只有关注导致医学结果的生成生理机制的自下而上解释才是可接受的，或者至少总是更可取的。事实上，像“吸烟导致肺癌”这样的宏观层面的说法似乎引发了更多问题而不是回答了问题：为什么吸烟会对健康产生不良影响？为了预防这些后果，有必要戒烟吗？是否可能生产出吸烟没有或者减少不良后果的香烟？如何制定最佳政策来改善肺癌的发病率和死亡率？了解烟草烟雾中的特定致癌物质和遗传易感性共同导致疾病的发生有助于回答这些问题。

尽管如此，假设我们在不了解负责机制的情况下无法解释结果是错误的。当在 20 世纪 50 年代中期，吸烟被确认为肺癌的原因时，当时确实可以解释许多国家的肺癌流行病，这些国家的人们在半个世纪前已经从吸烟烟斗转为吸烟香烟，尽管当时并不了解其作用机制。男性和女性之间或不同国家之间的肺癌发病率差异可以通过不同的吸烟行为来解释。在这种情况下，政策干预，例如在香烟包装上添加警示标签，不能等到足够的机制知识可用，也不必等待。

基于这些原因，一些医学哲学家提出采用“解释多元主义”来解释医学（De Vreese 等，2010 年; Campaner，2012 年）。无论如何，这无疑是与该领域的解释实践一致的立场。

4. 医学中的还原主义和整体主义

在许多领域中，关于还原论与整体论的辩论在医学中也很普遍，无论是在医学研究和实践中，这些术语通常被宽泛地使用，意味着一系列的事物（有关还原论在生物学中的讨论，请参见相关条目）。从最广泛的角度来看，还原主义对疾病的方法是寻找作为疾病潜在原因的基本机制或过程。近年来，尤其是在大规模基因组测序计划（尤其是人类基因组计划）的背景下，人们非常强调将疾病还原到基因或分子水平。主张更整体论方法的人指出，还原主义忽略了基于患者对疾病表型水平的经验所获得的重要信息，而这些信息对于追求有效治疗至关重要。许多通常被视为“遗传性”的疾病在实践中被证明非常难以将其还原为具有单一（或简单）遗传原因的统一疾病实体，包括精神疾病（Harris 和 Schaffner 1992）、囊性纤维化（Ankeny 2002）和阿尔茨海默病（Dekkers 和 Rikkert 2008）。正如 Catherine Dekeuwer（2015）所指出的，鉴于几乎所有疾病都可能存在遗传易感性的遗传变异，遗传疾病与存在遗传风险因素的疾病之间并没有明确的界限；因此，她认为我们倾向于关注疾病的遗传决定因素可能会强化人们对遗传化的观念，无论是对人类还是对人类行为。

关于研究，反对还原主义的批评者指出，过分强调对疾病的遗传或分子水平解释，忽视了其他解释水平。此外，这种限制对患者非常不利，尤其是因为大多数遗传性疾病很可能没有短期治愈或治疗方法，也许只能在第一时间避免携带特定基因的子女（例如参见 Hubbard 和 Wald 1999），尽管随着新的治疗方法的开发和对基因突变影响的理解不断改进，医学领域正在迅速变化。过度或仅仅关注遗传水平会导致一种由社会学家艾比·利普曼（1991）称之为“基因化”的过程，即将个体之间的差异归结为他们的 DNA，并将基因视为治愈疾病最有希望的方法，而不是将人们及其所遭受的疾病视为表型和更多环境因素的问题。此外，正如伊丽莎白·劳埃德（2002）所主张的，文化认可的更高社会组织水平对健康有未被认识的因果影响，因此医学研究不应仅限于分子水平。

弗雷德·吉福德（1990）声称，尽管所有表型特征都是基因和其所表达的环境之间相互作用的结果，但从某种意义上区分某些特征为“遗传性”是有意义的；他从种群的角度论证，如果是基因差异导致了给定种群中该特征的可变性，如果基因特征可以以与某些基因因素特定引起的方式进行个体化，那么一个特征（包括疾病特征）可以被理解为遗传性的。凯利·史密斯（1992）对此提出异议，指出第二个条件依赖于一个极具问题的因果关系（在这种情况下是基因）和纯粹条件（例如，表观遗传因素）之间的区别。丽莎·甘内特（1999）提出了一个关于遗传解释的“实用主义”观点，声称当一种疾病被归类为“遗传性”时，之所以将基因作为原因而不是其他条件单独挑选出来，必然包括实用主义的维度，因为它们是相对于给定的因果背景（包括基因和非基因因素）、相对于种群和相对于我们目前的知识状态而言的。最近有人认为，尽管解释性还不能在形而上学上得到证明，但还原解释可能是解决某些问题最准确、最充分和最高效的方式（van Bouwel 等，2011）。

5. 随机对照试验和循证医学

“循证医学”（EBM）描述了一个运动，该运动在 20 世纪 90 年代初由加拿大汉密尔顿麦克马斯特大学的一群流行病学家发起（以该名称），作为对于在为患者做出治疗决策时过度依赖临床判断和经验的反应。根据一个广泛引用的定义：

基于证据的医学是在对个体患者护理决策中，有意识、明确和审慎地使用当前最佳证据的行为。（Sackett 等，1996 年：312）

只有在使用的证据概念相对狭窄时，这样的定义才有意义。特别是，它不应该将临床判断和经验视为“最佳证据”。

为此，EBM 的支持者们发展了所谓的“证据层级”，将不同的研究方法按照其所谓的质量进行分类。虽然没有普遍接受的层级，但不同提出的层级在给予随机对照试验（RCTs）及其回顾的优先性方面达成一致。一个典型的层级如下（Weightman 等，2005 年）：

证据水平	证据类型
1++	高质量的荟萃分析、系统评价（包括集群随机对照试验）或风险极低的随机对照试验
1+	良好进行的荟萃分析，随附随机对照试验的系统综述，或风险低的随机对照试验
1–*	荟萃分析，随附随机对照试验的系统综述，或风险高的随机对照试验
2++	高质量的系统综述，或个体高质量的非随机干预研究（对照非随机试验，对照前后研究，中断时间序列），比较队列和相关性研究，具有非常低的混杂、偏倚或机会风险
2+	良好进行的非随机干预研究（受控非随机试验，受控前后研究，中断时间序列），具有低混杂、偏倚或偶然性风险的比较队列和相关研究
2–*	非随机干预研究（受控非随机试验，受控前后研究，中断时间序列），具有低混杂、偏倚或偶然性风险的比较队列和相关研究
3	非分析性研究（例如，病例报告，病例系列）
4	专家意见，正式共识

证据水平

证据类型

1++

高质量的荟萃分析、系统评价（包括集群随机对照试验）或风险极低的随机对照试验

良好进行的荟萃分析，随附随机对照试验的系统综述，或风险低的随机对照试验

1–*

荟萃分析，随附随机对照试验的系统综述，或风险高的随机对照试验

2++

高质量的系统综述，或个体高质量的非随机干预研究（对照非随机试验，对照前后研究，中断时间序列），比较队列和相关性研究，具有非常低的混杂、偏倚或机会风险

良好进行的非随机干预研究（受控非随机试验，受控前后研究，中断时间序列），具有低混杂、偏倚或偶然性风险的比较队列和相关研究

2–*

非随机干预研究（受控非随机试验，受控前后研究，中断时间序列），具有低混杂、偏倚或偶然性风险的比较队列和相关研究

非分析性研究（例如，病例报告，病例系列）

专家意见，正式共识

由 RCTs 产生的证据因此被称为 EBM 中的“黄金标准”（例如，由 Timmermans 和 Berg 2003 提出）。

在 RCT 中，可能从新的医疗治疗中受益的人群被分为一个治疗组——成员接受新的治疗——和一个或多个对照组——成员接受替代或“标准”治疗或安慰剂。个体患者通过随机过程（例如抛硬币）分配到一个组中。安慰剂是一种在所有方面都类似于新治疗的干预措施，但在调查的病情下没有已知的活性成分（即某种“糖丸”）。患者、研究人员、护士和分析师在分析之前对所有患者的治疗状态都是盲目的。一段时间后，观察到一个预先确定的结果变量，并比较不同组之间的变量值。如果在所需的统计显著性水平上，结果变量的值在不同的治疗组之间有差异，则认为该治疗是有效的。

EBM 的支持者认为 RCTs 是判断治疗效果可靠的手段，因为它们可以帮助控制各种（尽管不是全部）偏见和混杂因素。例如，如果一个患者或一组患者在干预后症状改善，这可能是由于自发缓解而不是治疗的结果。与简单的“前后对照”设计相比，将治疗组与一个或多个对照组进行比较的实验设计更能控制这种混杂因素。同样，如果将治疗和对照组的分配由非随机过程完成，可能会导致更健康的患者进入治疗组，而不太健康的患者进入对照组。如果是这样，测量到的改善可能是由于患者的健康状况而不是干预措施。特别是如果分配由一个对结果有利益的医学研究人员完成（例如，因为她开发了新的治疗方法），分配决策可能会在意识或潜意识中受到对谁将从干预中获益的预期的影响，从而造成不平衡的组别。通过随机过程进行分配有助于控制这种偏见来源。

没有人否认 RCTs 是强大的实验设计，它们的强大之处在于能够控制许多偏见和混杂因素。然而，将 RCTs 称为“黄金标准”的证据暗示着它们更重要。具体而言，人们可能会认为 RCTs 对于可靠的因果推断是必要的，或者 RCTs 能够保证提供可靠的结果。过去十年左右，许多医学哲学家已经对这些更强的主张提出了质疑。

特别是以下主张受到了批评：

统计显著性检验的逻辑要求随机化（Fisher 1935）。罗纳德·费舍尔通过他著名的茶水女仆思想实验来说明显著性检验只在随机分配的情况下有效。假设一位英国女士声称她能够分辨出是先倒茶还是先倒牛奶进入杯子中，我们想要测试这个说法。如果她在一系列八个杯子中每次都猜对（其中四个是“先倒牛奶”杯子，四个是“先倒茶”杯子），这个结果可能是因为她通常敏锐的味觉。但也可能是由于无数其他原因：她可能知道前四个杯子是先倒牛奶的，并正确地将这四个杯子识别为“先倒牛奶”杯子；“先倒牛奶”杯子在颜色或形状上与“先倒茶”杯子不同或具有其他可视辨识的特征；一个同谋记录了哪些杯子是“先倒牛奶”的并向她发出信号；等等。费舍尔现在认为，只有当茶水被随机分配到杯子中时，女士全部猜对的概率才能正确地被确定为她在没有辨别能力的情况下猜对的概率（在这种情况下为 1/70）。因此，我们可以判断她确实具有非凡的辨别能力，或者发生了非常不可能的事件（即概率为 1/70 的事件）。但这是不正确的。实际上，即使她没有良好的味觉，她仍然有无数种方式得到这个结果。如果有一个同谋向她发出正确答案的信号，她猜对的概率将非常接近 1，而与她的辨别能力无关（Worrall 2007a）。一个好的实验应该防止这种情况发生，但这与实验设计的其他方面有关，而不是随机化。
随机化控制所有混杂因素，已知和未知的（费舍尔 1935 年；吉尔 1984 年）。许多变量影响患者康复的概率：性别、年龄、合并症、遗传因素、遵守治疗方案、心理因素等等。如果我们想判断治疗组之间观察到的康复率差异是由于干预而不是其他因素引起的，我们必须确保因果因素的概率分布在不同组之间是相同的。随机化被认为可以确保这一点。然而，对于任何有限的测试人群规模（许多随机对照试验确实只有相对较少的患者），治疗组不平衡仍然是可能的：老年患者最终进入一组，年轻患者进入另一组等等。虽然随机对照试验中患者数量越大，各组在任何给定因素上的不平衡可能性越小，但如果有许多可能影响结果的因素，实际上很可能其中一些因素是不平衡的。因此，在实践中，如果在随机化后注意到两组在被认为影响结果的变量上不平衡，那么这些组将被重新随机分组或调整（沃拉尔 2002 年）。
可以“证明”RCT 的结果是正确的（Cartwright 1989; cf. Worrall 2007b）。每个科学家在职业生涯的某个时候都会了解到，不能仅仅因为 X 和 Y 相关就判断 X 是 Y 的原因。根据一个著名的因果理论，即概率论，因果关系实际上是一种相关性。粗略地说，概率论认为，只有在 X 和 Y 相关且所有混杂因素都得到控制的情况下，X 才会导致 Y（Reiss 2007）。现在可以证明，在概率论和一系列其他假设（包括随机化成功的假设，即治疗组在预后因素方面是平衡的）下，如果治疗状态变量与结果变量相关，则治疗必定导致结果（Cartwright 2007）。然而，基于这种推理将 RCT 在 EBM 中赋予特殊地位是一种逻辑错误。这个论点只能表明，如果满足了 RCT 背后的所有假设，RCT 将给出一个因果上正确的结果。它并没有表明 RCT 是唯一生成可证明正确结果的方法。事实上，可以相对容易地证明，在一定的假设集下，识别所谓的工具变量的观察研究同样是可证明正确的（Reiss 2005）。

最后但非常重要的问题是 RCT 结果的外部有效性。即使在理想条件下（即，当医学研究人员有非常充分的理由认为 RCT 工作的假设得到满足时），RCT 只能证明治疗在测试人群中有效。典型的测试人群与目标人群（即，那些已经开发出治疗方法并最终将接受治疗的人群）在更多或更少程度上存在系统性差异。例如，许多 RCT 将排除老年患者或合并症患者，但治疗将面向这些患者进行市场推广。出于财务原因，许多 RCT 现在在发展中国家进行，而治疗主要或仅在发达国家向患者进行市场推广。虽然进行 RCT 的协议非常严格和详细，但没有良好的指导方针来处理手头患者所属的人群与进行 RCT 的人群（例如，Cartwright 2011）不同的情况下如何做出治疗决策。

实际上，在应用 RCT 结果时存在两个外部有效性问题。一方面，存在从测试人群到目标人群进行推断的人群层面问题。另一方面，存在从人群到个体进行推断的问题。RCT 为人群层面的主张提供了证据：“在人群 p（测试人群）中，干预 X 对于治疗状况 Y 是有效的”。为了使这个主张成立，治疗必须在平均水平上有效，这允许在人群中个体之间的有效性有所变化。实际上，干预可能在平均水平上是有效的（和有益的），但在某些个体（即，某些亚人群的成员）中是无效或积极有害的。当 EBM 的支持者写道 EBM 是解释医学时，他们在某种程度上夸大了他们的论点。

强调了对临床研究证据的检验，而不是依赖直觉、非系统化的临床经验和病理生理学的理论基础。（循证医学工作组，1992 年）

因为从测试结果推断到目标人群，以及从任何人群推断到接受治疗的个体，必然基于临床判断。

约翰·沃拉尔（John Worrall）认为，归根结底，随机对照试验是控制选择偏倚的有力手段，但仅限于此（Worrall，2002 年，2007a，b）。他所使用的术语中，选择偏倚是指治疗组和对照组在某些预后因素上不平衡，因为医学研究人员已经选择了哪些患者将接受哪种治疗。显然，在随机对照试验中，这种选择偏倚是不可能发生的，因为在随机对照试验中，分配是通过随机过程进行的。但同时也很明显，随机化最多只能达到充分性，而非必要性。有很多替代设计可以达到同样的效果：可以通过严格但非随机的协议进行分配；分配由与治疗研发无关的非专家进行（因此对结果没有期望）；治疗组和对照组被有关人员有意匹配（同样由对结果没有利益的人员或根据某些协议进行）等等。

一个有争议的问题是机械知识的作用，即关于生物和生理机制对医疗结果（因此治疗效果）负责的知识在循证医学中应该扮演的角色。如上所述，RCT 为“在人群 p 中，干预 X 对疾病 Y 的治疗有效”的黑匣子因果主张提供了证据。正如我们所见，EBM 的支持者也认为 EBM 应该减弱病理生理学的基础（机械知识的另一种说法）。然而，一些医学哲学家指出，机械知识实际上在 EBM 中非常重要，或者应该得到更多关注。例如，Federica Russo 和 Jon Williamson 认为，因果主张需要统计证据以及关于将干预措施与结果变量相连接的机制的证据，才能得到证实（Russo 和 Williamson 2007）。其他人持不同意见（Reiss 2012），或对该主张进行限定（Gillies 2011；Howick 2011a；Illari 2011）。此外，还指出机械知识在 RCT 的设计和准备中起着重要作用，以及在 RCT 结果的解释和应用中起着重要作用（La Caze 2011；Solomon 2015）。特别是在将研究结果从一个测试推广到另一个人群时，机械知识被认为是至关重要的（Steel 2008；另见下一节）。另一方面，关于机制的知识通常存在很大问题，在应用中不应过于依赖（Andersen 2012）。

6. 动物模型

新疗法通常在随机试验中在人体上进行测试之前，会先在动物模型上进行试验。动物模型在确定某种物质是否对人体有毒方面也起着重要作用。例如，国际癌症研究机构（IARC）将物质的致癌性证据质量分为五组。动物模型的证据被用于每组的表征（IARC 2006）。这引发了关于如何从动物模型推导到人体的问题，以及它们的可靠性如何。

动物模型在生物医学研究中被广泛使用，因为对动物进行实验干预比对人类进行实验更容易且更便宜。这两种实验都涉及伦理困境，但从伦理角度来看，动物实验通常被认为比人体实验问题较少。无论如何，在生物医学研究中，被杀害、伤残或使生病的动物数量远远超过了受到不利影响的人类数量。

在将任何模型（无论是人类、动物还是其他）所学到的知识转移到某个目标人群时，存在一个基本的推理问题，被称为“实验者的循环”（Steel 2008）。问题本质上是这样的。只有在模型在相关方面与目标相似的程度上，我们才能假设模型的真实性也适用于目标。然而，我们之所以首先在模型上进行实验，是因为模型在重要方面与目标存在差异（如果动物与人类完全相同，我们不会认为对前者进行实验比对后者进行实验在伦理上更少问题）。因此，从模型到目标的推断只有在我们直接研究目标的能力受到显著限制时才是有价值的。如果是这样，就没有充分的理由来决定模型是否适用于目标。要做到这一点，我们必须调查目标是否与模型相关地相似；但如果我们能够这样做，就没有理由首先研究模型了。

这个推理问题导致一些评论家对我们在生物医学研究中使用动物作为人类模型的能力持高度怀疑的观点。休·拉福莱特（Hugh LaFollette）和尼尔·尚克斯（Niall Shanks）认为，动物模型不能可靠地用于推断，最多只能作为启发式的假设来源，必须在人类身上进行测试（LaFollette 和 Shanks 1997）。他们引入了两个术语来支持他们的论点：因果类比模型（CAM）和假设类比模型（HAM）。前者可以用于对感兴趣的目标人群进行可靠的预测；后者只能作为启发式的方法。他们论证中的主要前提是，生物医学研究中的动物模型最多只能是 HAM，而不是 CAM，原因是模型与目标之间不能存在因果相关的不相似之处（这也是为什么我们首先在实验室中研究动物的原因）。

丹尼尔·斯蒂尔（Daniel Steel）（2008 年：第 5 章）认为，拉福莱特和尚克斯对可靠推断的条件过于严格。他认为，关于模型的推断能否被外推还取决于要导出的主张的强度。例如，从人口 p 的 x％成员在摄入物质 S 后会出现中毒症状的推理是一回事

x% of the members of population p will show symptoms of poisoning after ingesting substance S

至于

人口 q≠p 的 x%成员在摄入物质 S 后会出现中毒症状，

从定量主张推理到定性主张，如“物质 S 对 q 的成员有毒”，是完全不同的。

Steel 对生物医学科学中外推工作的重建被称为比较过程追踪。他假设原因 C（如医疗干预或摄入有毒物质）通过一系列步骤或阶段导致其效果 E（如症状的出现或改善或恶化）产生。追踪因果过程意味着调查 C 通过哪组阶段导致 E。当将 C 通过一种物种或人群导致 E 的阶段组与（如果确实如此）另一种物种或人群导致 E 的阶段组进行比较时，过程追踪是比较的。

如果为了知道 C 在目标物种或人群中引起 E，我们必须比较模型和目标之间的整个过程的所有阶段，那么比较过程追踪将是徒劳的。这是因为为了这样做，我们必须知道 C 引起 E 的整个过程的所有阶段，但如果我们知道了，我们已经知道 C 引起 E。这将使我们回到外推者的循环。Steel 现在认为，通过要求只在它们可能不同的阶段比较过程，以及假设模型和目标之间的差异只对从它们获得的阶段有影响，比较过程追踪避免了外推者的循环。因此，如果我们将模型中获得的中间阶段与目标中的该阶段进行比较，并发现它们在相关方面相似，那么可能仍然存在的唯一差异将在此阶段之后。因此，我们不需要了解从 C 到 E 的整个过程在目标中的情况，成功地避免了外推者的循环。

比较过程追踪作为一种用于生物医学科学推断的方法的实用性取决于只有下游差异对推断有影响的假设的可靠性，以及我们能够识别模型和目标之间可能存在差异的阶段的可靠性，以及我们机械知识的可靠性。例如，如果我们认为 C 通过模型中的一系列阶段 X、Y、Z 导致 E，或者 X 和 Z 是模型和目标可能存在差异的阶段，但我们的理由并不十分充分，那么这种方法就无法启动。这是一个依赖于对特定案例的现有知识质量的问题，无法为整个生物医学科学解决。当然，有一些已经确立的因果关系的例子，我们只知道 C 导致 E，但是因果过程的细节完全超出了我们目前的理解范围（Reiss forthcoming-a）。

一个被提出的替代比较过程追踪的方法是通过对因果能力的知识进行推断。如果 C 具有导致 E 的因果能力，那么 C 以一种相对稳定或不变的方式导致 E。具体而言，即使存在干扰因素，C 仍将继续对 E 的产生做出贡献（Cartwright 1989）。因此，证明 C 具有导致 E 的因果能力意味着要显示 C 导致 E 与 C 和 E 发生的背景在某种程度上无关。因此，如果 C 在模型物种或种群中导致 E，并且 C 具有导致 E 的因果能力，那么有理由相信 C 也会在目标物种或种群中导致 E（有关辩护，请参见 Cartwright 2011）。

通过因果能力的外推方法的实用性取决于诸多因素，其中之一是生物医学因素能否被表征为具有能力。许多生物医学原因确实具有一定程度的稳定性。镰状细胞特征对轻度临床疟疾具有 50%的保护作用，对住院治疗疟疾具有 75%的保护作用，对严重或并发疟疾具有近 90%的保护作用（Williams 等，2005 年）。这些数据表明，存在镰状细胞特征（疟疾的预防者/干扰因素）的情况下，感染疟原虫仍然会持续影响结果。（Reiss 2015b: 19）

但是，与其他因素的相互作用程度也很高。一个物质是否对一个生物体有毒取决于其代谢系统的细节，除非条件恰到好处，否则生物体可能根本不受该物质的影响。因此，这种方法的成功程度也与比较过程追踪一样，取决于具体情况。

But there is a high degree of interaction with other factors as well. Whether or not a substance is toxic for an organism depends on minute details of its metabolic system, and unless the conditions are just right, the organism may not be affected by the substance at all. To what extent this method will be successful therefore similarly case-dependent as comparative process tracing.

正如我们所看到的，从纯粹的认识论（与伦理、经济或综合的观点相对）来看，关于动物研究是否有价值的问题没有普遍答案。其他作者已经发展了一种基于实践的动物模式分类法，以便更准确地评估认识论优点和缺点以及特定建模实践的预测能力（Degeling 和 Johnson 2013）。有很多证据表明，不同物种在对物质产生毒性反应的易感性方面存在巨大差异。因此，虽然很可能对于任何一种毒素，有一些物种可以预测人类的反应，但往往很难确定哪种物种对于任何特定的毒素最合适。对于一种物质，对人类反应的预测良好的物种可能对另一种物质来说是一个糟糕的模型。然而，一些作者认为，至少在某些情况下，从动物模型中进行推断已经取得了成功（Steel 2008 讨论了从费舍尔大鼠对人类的黄曲霉毒素致癌性的推断；请参阅 Reiss 2010a 进行批判性评估和 Steel 2013 进行回应）。

7. 观察研究和病例报告

在生物医学科学中，经常情况下，可靠的动物或其他非人类模型不可用，并且由于伦理或实际原因，对人类进行 RCTs 是不可行的。在这些和其他情况下，可以使用观察方法建立生物医学假设。正如我们在第 5 节中所看到的，循证医学认为观察方法通常比 RCTs 和其他实验方法不可靠。这是因为观察研究受到许多混杂因素和偏见的影响，而当假设通过设计良好和执行良好的 RCT 进行测试时，这些因素和偏见可以得到控制。但并不是说观察方法不能提供可靠的结果。事实上，通过观察建立的医学知识很可能远远超过来自 RCTs 的知识。以下是一些被广泛接受为有效但其有效性尚未通过 RCTs 进行测试的医疗干预措施的例子：青霉素治疗肺炎，阿司匹林治疗轻度头痛，利尿剂治疗心力衰竭，阑尾切除术治疗急性阑尾炎和胆囊切除术治疗胆石症（Worrall 2007a: 986）；自动体外除颤以启动停止的心脏，气管切开以打开阻塞的气道，海姆立克急救法以排除呼吸道阻塞，狂犬病疫苗和肾上腺素治疗过敏性休克（Howick 2011b, 40）。

观察性研究通常以报告一个感兴趣的医学结果与一个或一组独立变量之间的记录相关性开始：吸烟者群体的肺癌发病率高于非吸烟者群体，食物中被黄曲霉毒素污染的人群的肝癌发病率高于食物未受污染的人群，这只是一些例子。吸烟导致肺癌，或者黄曲霉毒素导致肝癌，确实可以解释观察到的相关性。但是，还有其他各种假设也可以解释。一般来说，如果两个变量 X 和 Y 相关，可能是 X 导致 Y，Y 导致 X，或者一个共同因素 Z 同时导致 X 和 Y（或者这些的组合）。在吸烟/肺癌的案例中，这三个假设都被提出作为数据的可能解释。罗纳德·费舍尔（Ronald Fisher）著名地提出，可能是支气管癌的早期阶段导致个体渴望吸烟，并且他提供了一些证据表明吸烟行为和对肺癌的易感性具有共同的遗传基础（Fisher 1958）。此外，相关性本身可能是虚假的——即数据根据皮尔逊系数等相关性度量存在相关性，但实际上在感兴趣的人群中，底层变量实际上并不相关。选择偏倚通常被理解为当个体自行选择进入观察到的人群，并且他们这样做的原因与结果变量相关时所产生的偏倚。如果观察性研究仅检查住院患者，并且吸烟者更有可能因与肺癌无关的原因住院，那么即使在一般人群中这些变量是独立的，吸烟和肺癌在数据中也可能存在相关性。测量误差和诊断错误提供了另一种虚假相关性的解释。假设在许多人从吸烟烟斗转为吸烟香烟的一代人之后，结核病再次上升。然后，如果由于尸检技术不够发达，很难区分结核病死亡和肺癌死亡，那么即使人口变量不相关，数据可能再次显示出相关性。

回顾性观察研究通过事后排除这些替代假设，而不像 RCTs 那样事前控制它们（Reiss 2015a）。在 RCT 中，测量误差不应该存在，因为协议事先详细规定了结果变量的测量程序。选择偏差不应该存在，因为患者被随机分配到治疗组。一旦分配到一个组，他们就被阻止在其他地方获得另一种治疗，并且研究人员确保患者遵守治疗方案。但是在观察性环境中也有等效的方法来排除这些可能性。虽然早期癌症可能导致对香烟的渴望，但这个假设无法解释戒烟的保护作用。在 20 世纪 50 年代中期的吸烟/肺癌争议时期，确实存在误诊问题。然而，可以证明为了解释观察到的肺癌发病率上升，老年人尸检时的诊断误差必须比年轻人的诊断误差高一个数量级（Gilliam 1955）。因此，也可以排除测量误差。类似的考虑帮助排除了其他替代假设（Cornfield 等，1959）。

即使一个人相信，与 EBM 的支持者一样，观察性研究通常比 RCTs 不可靠，医学显然不能没有它们。出于伦理、财务和其他实际原因，有很多紧迫的问题无法通过 RCT 来解决。没有人会认真考虑通过 RCT 来测试“黄曲霉毒素引起肝癌（在人类中）”这样的命题。这不仅仅是因为明显的伦理问题，即为了医学进步而故意让人类接触潜在的致癌物质。这也是因为暴露于低水平的黄曲霉毒素可能需要多年甚至几十年才能产生症状。研究人员在一个很长时间内控制大量实验对象的食物摄入能力具有明显的实际财务和限制。当研究人员或患者或两者都无法盲目时，也不能使用 RCTs，并且许多医疗干预确实需要医生或患者对干预的详细了解。

此外，并不清楚 RCTs 是否总是比观察性研究更可靠，以回答两种方法都能解决的问题。一项研究是否可靠取决于混杂因素和偏倚是否实际上已经被消除，而不是通过哪种方法消除。关于一种方法的可靠性问题可能与其解决生物医学科学家试图回答的研究问题的能力问题纠缠在一起。生物医学科学中的 RCTs 和观察性研究通常用于测试关于医疗干预的安全性和有效性的相当复杂的假设。可能某些问题更可靠地通过一种方法处理，而其他问题则通过另一种方法处理。

2000 年代初，观察研究和随机对照试验（RCTs）的结果发生了冲突，争议焦点是激素替代疗法（HRT）的益处和安全性（Vandenbroucke 2009）。观察研究表明，HRT 对冠心病具有保护作用，而 RCTs 则显示在使用初期会增加风险。对于乳腺癌，联合激素制剂在 RCT 中的风险较观察研究中较小。最终发现，效果的时间尺度是造成这种差异的原因，由于它们的运行方式通常不同，观察研究得出了一些问题的正确答案，而 RCTs 得出了其他问题的正确答案：

观察研究对于接近更年期的妇女捕捉到了真实信号。在随机试验中，由于接近更年期的妇女参与较少，这个信号被稀释了...对于冠心病，随机试验是正确的，但对于乳腺癌，它们未能足够关注接近更年期的妇女。造成差异的主要原因是 HRT 的效果随时间变化...（Vandenbroucke 2009: 1234）

病例报告在医学领域中仍然非常受欢迎，既用于领域内的交流，也用于教学目的。简而言之，病例报告描述了一个或多个患者所经历的医学问题，通常涉及某种以现有对疾病或生理病理学的理解难以解释或分类的疾病或类似情况。医学病例采用高度标准化的呈现形式，这些形式在医护人员的教育过程中被灌输，并且许多人对其高度标准化的叙事结构及其认识论和其他含义进行了评论（Hunter 1991; Hurwitz 2006）。病例通常提供有关疾病的表现、诊断、治疗和患者预后的详细信息，重点关注基于实践的观察和临床护理（而不是随机对照试验或其他实验方法的结果）。病例的目的之一是收集详细信息，包括可能并非立即相关但可能证明有用的事实（Ankeny 2011）。因此，病例中包含的信息以及病例本身在长期内可能非常有用，特别是如果能够系统地与其他病例结合成更大的数据集。

一些人认为，单个案例作为证据形式在 EBM 时代尤其有问题，因为它们经常关注疾病和疾病的高度异常表现，而不是可能支持可推广规则的典型或重复观察到的情况。这一特点导致一些人将医学描述为“个别科学”（Gorovitz 和 MacIntyre 1976），或者是一门艺术而不是一门科学（Pellegrino 1979），尤其是在诊断过程中（见第 9 节）。然而，EBM 的标准解释包括病例系列作为一种证据类型，其中涉及聚合具有相似属性的个体病例（例如，接受相同治疗或疗法的病例），使用描述性数据随时间跟踪，并且不使用特定假设寻找因果关系的证据。EBM 确实将病例系列放在其证据等级的较低位置，但仍然承认病例在没有更高级别证据可用的情况下具有潜在的有用性，这可能经常是人类患者所关心的实际或伦理原因，或者更高级别的可用证据在方法上或其他方面存在缺陷。

病例还可以发挥其他作用：例如，对病例的分析可以提供关于因果归因的工作假设，从而可以进行进一步的因果关系测试（Ankeny 2014），这反过来可以使用更传统的方法，如 RCT、队列研究等来探索这些因果假设。在临床护理的背景下，病例可以使医疗保健提供者确定可以操纵以治愈（或预防）所讨论的疾病的原因，以便治疗病人，即使没有更严格的证据形式。

8. 诊断

诊断是临床医生确定患者病情不正常的过程。虽然诊断是医学实践的重要组成部分，但在医学哲学的文献中相对被忽视，尤其是与其他领域中更多基于统计方法评估证据的方法相比（Stanley 和 Campos 2013）。在这一背景下出现的关键哲学问题与如何在人类状况常常伴随的高度不确定性和复杂性下进行准确的确定有关，因此涉及逻辑、认识论和本体论等问题。在临床环境中通常的做法是要求患者表达自己的不适，并使用标准化的报告格式详细描述各种症状，这些症状代表了疾病的主观表现。此外，临床医生还进行各种测试和检查，以记录更客观的表现或体征，如心率、血压、计数、反射等。医学哲学中一个长期存在的争论是什么构成了症状和体征，以及它们是否实际上是不同的，这与上述关于疾病条件的现实性的更深层次问题有关（第 2 节）。

这个过程的棘手之处在于找到一种将这些症状和体征映射到特定疾病状况的方法。有人主张，这个过程与科学哲学中基于证据进行假设生成和测试的常规方法没有什么不同，这种模型与所谓的鉴别诊断相吻合。鉴别诊断涉及一组对特定状况的假设性解释，这些解释根据证据和收集的额外数据来判断是否成立，因此依赖于一种通过决策节点或算法路径进行推理的形式（Stanley 和 Campos 2013）。然而，支撑这种过程的推理规则的细节以及可能对诊断推理有所贡献的“默示”知识的数量仍然没有得到详细阐述。

在临床环境中，诊断有多种教学和操作方式：在某些特定的亚专业中，常常使用图像表示的“模式”识别似乎很常见，因此诊断是一种识别重复模式的形式。然而，对于初学者来说，这种方法可能是危险的，因为常见疾病中存在大量相似的模式。有人声称，诊断是一种道义行为和可计算的行为，并且诊断只是相对的，因为它们发生在一个复杂的背景中，这反过来使它们成为一种社会实践（Sadegh-Zadeh 2011）。计算机辅助诊断技术得到了改进，并在临床环境中越来越多地使用；Kenneth Schaffner（1981）对理想诊断逻辑所需满足的标准进行了早期分析（有关更新的讨论，请参见 Schaffner 1993、2010，以及有关此类诊断限制的论证，请参见 Wartofsky 1986）。近年来，医学专业人员和医学信息学相关人员之间存在相对一致的共识，即医学诊断几乎肯定依赖于某种形式的“模糊逻辑”（例如，Sadegh-Zadeh 2000；Barro 和 Marin 2002）。

9. 临床医生的判断和专业知识的作用

正如我们在第 5 节中所看到的，循证医学中的证据等级体系将“系统性”的临床研究结果（如 RCT 和观察性研究）排在“非系统性”的专家意见之上。上世纪 90 年代初发起正式循证医学运动的流行病学家们对专家意见持怀疑态度是有充分理由的。当疗法经过系统性测试时，传统和专家意见有时会被证明是有缺陷的。约翰·沃拉尔讨论了三个例子：用于治疗胶耳的鼓膜通气管、用于抑制心室早搏的药物（如恩卡因或氟卡尼）以及常规胎儿心率监测以预防婴儿死亡（沃拉尔 2007a：985）。在每种情况下，我们有一个通过常识和对病理生理途径的了解来指示其有效性的程序——例如，胶耳是由于中耳内液体积聚而无法排出而产生的病症，鼓膜通气管通过让空气进入中耳从而平衡压力——但是，当通过随机试验进行测试时，结果最多是无效，最糟糕的情况下甚至有害。

对于纯粹认识论原因而对疗法功效进行错误判断并不是人们对专家意见可能担心的唯一问题。医学专家和患者之间存在着经济学家所称的委托代理关系。在这种情况下，委托人即患者希望得到某种商品或服务，即他的健康。他委托代理人即医生来实现这一目标，因为他自己没有生产这种商品的专业知识。这种商品只能在不确定性中生产：没有一种疗法是 100%有效的。此外，成功实现这种商品在一定程度上取决于代理人的努力。医生可能并不总是为患者选择最佳疗法（我们可以假设为患者选择最佳疗法需要一些努力），而且任何疗法都可能被实施得不够仔细。此外，由于缺乏专业知识，患者无法观察到医生付出的努力水平。因此，他无法设计一份根据努力水平（更不用说成功，因为成功在一定程度上受到双方控制之外的因素影响）而支付报酬的合同。代理人因此有动机作弊：不按照患者的角度选择和提供最佳疗法所需的努力。

如果患者和医生完全理性，并且只受自己的物质利益驱使，在没有监管的情况下，根本就不会有医疗服务市场。医生会选择对他们自己最有利的疗法，而不是对患者最有利的疗法，患者会预料到这种行为，并且从一开始就停止寻求医生的服务。在我们的世界中，患者和医生都不是特别理性的，也不纯粹出于自身利益的动机，存在着伦理准则，如现代形式的希波克拉底誓言，而且医疗部门是最受监管的行业之一。然而，所有这些都不会改变医生和其他医疗服务提供者所处的激励结构。因为他们而不是患者是专家，他们有动机选择对他们最有利而不是对患者最有利的疗法。

还有一个进一步的复杂性。许多，可能是大多数医生与制药行业有各种形式的联系。根据一项研究，94%的美国医生从制药行业获得经济利益（Bekelman 等人，2003 年）。即使我们假设医生不是因为被支付而开处方，针对他们的营销活动也会影响治疗建议，即使只是因为他们对某些药物比其他药物更了解，或者因为某些治疗方法在他们的头脑中占据主导地位。

出于所有这些原因，以系统研究中最佳可用证据为基础的治疗决策的 EBM 原则并非无中生有。例如，如果有一项 RCT 或观察性研究报告称治疗 X 在缓解症状 S 方面比治疗 Y 更有效，那么在研究结果的光下，推荐患有 S 症状的患者服用 Y 似乎是不妥的，因为他的家庭医生不知道 X 的情况，不知道研究结果，从开处方 Y 中获利，或者是不够专注。然而，虽然这些都是在研究结果的光下推荐 Y 而不是 X 的不好的理由，但也可能存在各种好的理由。

如第 5 节所讨论的，RCT 和许多观察性研究是针对人群的研究，其产生的平均结果并不直接适用于个体。例如，如果治疗 X 在一段时间内将某种不良事件的风险降低 50%（即该治疗的风险比（RR）为 50%）在人群 p 中，那么在 p 中可能没有个体的风险减半。相反，RR 在 p 的亚人群中可能会有很大的差异，而且很可能是 Y 对某些亚人群比 X 更有效。

副作用也是如此。Tonelli（2006）讨论了一个病人的案例，该病人患有多发性硬化症，接受了一种似乎能缓解她症状的治疗，但自从她开始服用以来，她一直饱受严重的抑郁发作的困扰。临床试验结果表明，该药物对治疗多发性硬化症有效，并且没有报告不良的精神影响。她的全科医生和精神科医生现在在讨论是否继续治疗。临床研究没有显示精神健康效应的证据有各种原因：试验对象没有得到适当的抑郁筛查；发现了不良反应但没有报告；不良反应在统计上没有显著性，但对某些亚群体可能在临床上具有显著性；副作用只出现在与试验人群不同的人群中。

这个案例表明，治疗决策时，药物在缓解所开药物的疾病症状方面的有效性并不是唯一的考虑因素。治疗的目标是改善患者的福祉，这一点被 EBM 的支持者们广泛认可。患者的福祉当然有很多组成部分，而任何给定疾病的症状充其量只是其中的一个因素。这是为什么在制定治疗建议时必须行使临床判断的另一个原因。

不幸的是，专家们——像所有人类一样——在做决策方面往往表现糟糕。认知心理学家已经确定了许多认知偏见，这些偏见影响着人类专家：他们过于自信（例如，Dawes 和 Mulford 1996），具有事后偏见（例如，Fischhoff 1975；Hugh 和 Dekker 2009），常常被简单的机械算法超越（例如，Grove 和 Meehl 1996），犯下了连词谬误（Tversky 和 Kahneman 1983；Rao 2009）等等。

举一个简单的机械算法超越专家的例子，考虑到高尔德堡规则，根据该规则，如果 x=(L+Pa+Sc)−(Hy+Pt)>45（其中 L 是一个有效性量表，而 Pa、Sc、Hy 和 Pt 是明尼苏达多相人格测验或 MMPI 测试的临床量表），患者将被诊断为神经症，否则将被诊断为精神病。刘易斯·高尔德堡在一组 861 名患者的 MMPI 档案上测试了这个规则，这些患者的诊断由他们所在医院或诊所的精神科医生进行，发现这个规则的准确率为 70%；临床医生的准确率在 55%至 67%之间（高尔德堡，1968 年；有关讨论，请参见毕晓普和特劳特，2005 年）。

没有一种策略可以应对影响临床医生判断的各种偏见和利益。大学提供更好的数字能力和统计培训可以帮助消除一些认知偏差（吉格伦泽尔，2014 年）。计算机辅助的医学诊断和决策可能会减轻其他问题。然而，没有培训或计算机程序可以做出规范性判断，也无法解决不利的激励结构和财务利益。这些困难也困扰着我们接下来要转向的医学专家委员会。

10. 医学中如何做出集体专家判断？

克服专家偏见的一种方法是不依赖于个体专家的判断，而是让专家组形成某种形式的集体判断来做出医疗决策。例如，美国国立卫生研究院曾经组织所谓的共识会议来解决科学争议。该小组成员由临床医生、研究人员、方法学家和普通公众组成。联邦雇员不符合资格，研究该主题或存在利益冲突的研究人员也不符合资格（Solomon 2007）。这些排除条件旨在控制政府影响以及由于财务或知识利益而产生的任何偏见。

共识会议和其他达成集体判断的机制显然不是万能药。例如，Miriam Solomon（2015）认为，共识会议往往在医学界已经解决问题之后才举行，从而“错过了认识机会的窗口”。在当前背景下更重要的观察是，尽管这些会议可能有助于控制某些偏见形式，但在减少其他偏见方面却无效，并可能导致引入新的偏见。一个担忧是，专家组成员可能会有选择性地阅读现有证据，例如，因为他们更重视突出的研究或对他们更容易获取的研究。另一个担忧是，群体思维（Janis 1982）和同侪压力等现象可能会影响结果。在 NIH 共识会议中，专家组成员必须在仅有两天的听证和讨论后做出裁决。在这种情况下，更直言不讳的专家组成员或在极端压力下表现出色的成员可能对结果产生不当影响。此外，并不清楚总是排除那些在手头问题上发表过论文的临床医生是否总是一个好主意。毕竟，可以合理地认为，那些积极从事研究课题的科学家是最能理解该课题并能做出最明智判断的人。基于这些和其他原因，Solomon（2007，2015）探讨了判断聚合的后果。在这个过程中，群体成员通常不进行讨论，而是投票表达自己的意见，然后使用一些预先确定的程序进行聚合。多数规则将是这种程序的一个简单示例。

使用类似多数投票的机械程序来进行群体判断具有许多优点。首先，有一些可以通过康多塞的陪审团定理来说明的认识论优势。该定理表明，如果（a）判断涉及可以是真或假的命题，（b）陪审团成员有独立的概率大于 0.5 来正确判断，（c）使用多数投票来汇总个体判断，那么陪审团越大，达成正确的群体判断的可能性就越大。在这些条件下，专家委员会很可能比单个专家做出更好的判断。此外，在没有讨论和压力来达成一致结果，并且投票是秘密的情况下，群体思维、同侪压力等的影响会减弱或消除。

当条件（a）-（c）不成立时，结果更加模糊甚至是负面的。当专家不可靠时，即个体正确判断的概率小于 0.5 时，群体越大，达成正确的群体判断的可能性就越小，最佳的群体规模是一个单个专家。当结果可以有多个值时，可能会出现不一致的结果。可以通过一个例子来轻松地证明这一点，假设有三种可能的结果和三个专家。例如，一个小组必须决定哪种治疗方法 A、B 和 C 对某种疾病最有效。个体小组成员的个体排名如下：

专家 I：A>B>C

专家 II：B>C>A

专家 III：C>A>B,

其中“>”表示“更有效”。现在有多数人认为 A 比 B 更有效（I 和 III），多数人认为 B 比 C 更有效（I 和 II），以及多数人认为 C 比 A 更有效（II 和 III）。更一般地说，每当决策命题之间存在逻辑关系（在本例中为：A>B 和 B>C 意味着 A>C），至少有三名小组成员，并且通过多数规则进行投票汇总时，群体层面可能出现不一致（Pettit 2001）。

多数规则当然只是一种聚合判断的方式。Delphi 方法（例如，Dalkey 和 Helmer 1963; 用于医学的应用，请参见 Jones 和 Hunter 1995）适用于需要提供某个感兴趣变量（例如，新治疗的风险差异）的数值估计的情况。专家们通过问卷回答问题。每一轮结束后，主持人会提供专家们在上一轮中的估计以及他们判断的理由的匿名总结。因此，专家们应该被鼓励根据其他专家的估计和理由来修订他们之前的答案。在这个过程中，估计的范围通常会减小，希望小组会趋于收敛于正确答案。该过程在预先确定的停止准则（例如轮数、达成共识、结果的稳定性以及最后一轮估计的平均值）之后停止。

Solomon（2011, 2015）提出了一个与具体方法无关的关于群体判断的基本问题。她认为，在自然科学中，我们很少使用群体判断方法来确定科学假设的真实性或变量的估计（尽管参见 Staley 2004）。如果存在不确定性，例如，关于两个替代假设哪个是真实的，或者自然常数的值是多少，科学家会进行测试、实验和测量。换句话说，争议是基于证据解决的，而不是（个人或群体的）意见。随着循证医学的进步，我们难道不应该期望在医学领域也发生同样的情况吗？因此，她建议更广泛地使用机械技术来整合证据，例如元分析，而不是共识会议等。

近年来，NIH 共识会议的频率确实显著下降（Solomon 2011, 2015）。但这当然不是说集体判断不再需要的理由。共识会议可能不适合 NIH 的目的，或者 NIH 可能对证据解决争议的能力持有错误观点。事实上，至少有两个理由可以认为集体判断程序将继续存在。

第一个理由是，正如我们在上面所看到的，医学决策总是在一定程度上涉及规范问题。没有一种治疗是完全没有副作用的，因此，如果对疗效的判断要具有实际指导意义，就必须权衡好利益（减轻疾病症状）与成本（副作用带来的痛苦）——即使经济成本和效益不被考虑在内。第二，像美国食品药品监督管理局（FDA）这样的政府机构必须决定是否批准新的治疗方法上市。这些决策往往具有重大后果，而民主国家往往更倾向于能够追究某人对其做出的决策负责。因此，药物批准不能仅仅基于根据某种机械算法的证据来确定。

Biddle (2007)在 Vioxx 案例研究中讨论了药物批准的认识论和道德问题。Vioxx 是一种止痛药，于 1999 年获得 FDA 批准，但五年后由制药公司默克因安全问题从市场上撤出。据估计，大约有 55,000 人因服用该药物而死亡（Harris 2005）。Biddle 观察到，FDA 与制药行业的独立性不足以做出公正的决策。FDA 的药物批准委员会的许多成员存在经济利益冲突（通常以从药企获益的形式），而 FDA 的许多员工则依赖于行业支付的“用户费”来帮助支付药物批准的成本。为了解决这些利益冲突问题，Biddle 提议建立一种对抗性系统，其中制药商代表团和独立科学家代表团将在法官小组面前争论一种药物是否应该上市。在这个模型中，法官小组由独立的 FDA 或大学科学家组成。他认为，对抗性系统将更好地承认越来越多的医学研究人员与制药行业存在经济联系，将他们视为倡导者而不是客观专家。（另见 Reiss 和 Wieten 2015 年，Reiss 即将发表。）

11. 医学研究中的价值观

毫无疑问，医学研究受到各种外部价值观的影响，这与科学其他领域中被广泛认可的价值负载性类似（参见科学客观性条目）。其中许多价值观引发了与公平获得医疗保健等相关的伦理困境。即使在最近几年，医学研究已变得更加包容，这一趋势也引入了一系列额外的哲学和伦理问题（Epstein 2007）。对于我们的目的，我们将重点关注某些类型的个体、群体或疾病在研究中被系统性排除对未来研究以及基于该证据做出的临床医疗实践的有效性所带来的影响。

在传统医学研究中，通常认为白人男性参与者可以作为推广的基础，进而可以推广到所有其他人群，包括少数民族和女性（Dresser 1992）。文献综述表明，尤其是排除了女性（尤其是年长的女性），并且对女性的研究通常与生殖功能和能力有关（Inborn and Whittle 2001）。此类研究被认为未能达到高质量医学研究和循证医疗的理想（Dodds 2008）。尽管近年来已经取得了一些进展，但在许多类型的医学研究中，仍然存在某些形式的全面排除，例如育龄妇女或孕妇。这些系统性排除的类型非常问题，特别是因为有明确的证据表明男性和女性在与生物和社会原因相关的一系列因素上存在重要差异，这影响了对治疗的接受能力。

在美国等少数族裔如非洲裔美国人的情况下，即使研究试验试图招募他们，许多因素可能导致他们不参与医学和其他类型的研究。这些因素包括由于历史和制度性种族主义而产生的不信任，包括未经同意进行的研究；对研究和同意的理解不足；社会污名；财务考虑；以及研究人员缺乏文化敏感的招募方法（例如，Huang 和 Coker 2010）。医学研究中的这些差距可能导致对特定群体有害的治疗或疗法的使用，并可能导致有益的疗法的被拒绝。

医学研究还受到选择调查的疾病或疾病的影响（Reiss 和 Kitcher 2008）：也许最为臭名昭著的是，“孤儿”疾病，这些疾病要么罕见，只在少数族裔中常见，要么只存在于某些发展中国家或其他低社会经济环境中，通常被忽视用于药物和其他疗法的开发，因为人们认为在研究可能进行的任何产品上将没有一个可行的商业市场，因为这些潜在产品通常被称为“孤儿药物”。在某些情况下，患者可能会追求对已获批用于其他疾病的药物的“非标签”使用，因为由于成本和需求，很难获得“孤儿”疾病的批准；然而，即使在医生的监督下进行这种非标签使用的药物，也通常导致缺乏一致的证据收集和缺乏在药物获得特定用途批准时使用的典型风险-效益监管考虑。

我们通过研究获得的医学知识受到价值观影响的最后一种方式是与研究相关的资金模式。正如上面所暗示的，制药公司赞助了相当一部分药物试验，并且在这些投资中有多种利益，远远超出了为某种特定产品的有效性（或缺乏有效性）收集证据的范围。有一致的证据表明，由行业赞助的负面研究结果通常被压制（Lexchin 2012a），导致了报告内容的偏见，从而影响了可用于进行处方和治疗决策的证据。在许多其他领域也发现了偏见：在研究本身中选择研究问题或调查主题，在选择与所研究药物进行比较的剂量或药物方面，在对试验设计和各种协议变更的控制上，在决定提前终止临床试验以及重新解释数据方面，以及在数据的出版以及结果的报告细节方面（Sismondo 2008；Reiss 2010b；Lexchin 2012b）。所有这些问题都削弱了临床护理判断所依据的证据基础，并且还可能对患者产生不利影响。

12. 测量医疗结果

为了定量评估医学结果，必须对其进行测量。有许多原因要量化医学结果。我们可能想要比较两种或更多治疗方法在缓解某些症状或预防某种疾病导致的死亡方面的功效。当资源有限时，我们不仅希望投资于有效的治疗方法（即，它们能够改善患者的发病率、死亡率或两者兼有），还希望它们是高效的（即，相对于采购成本而言，它比其他治疗方法更有效）。为了国际比较、发展和国际公正，我们还希望有疾病负担的衡量标准：在增加发病率和死亡率方面，一系列热带病中哪种疾病的成本最高？对于用于治疗 X 疾病的每一美元研究经费，我们可以期望减少它所导致的发病率和死亡率多少？

现在，临床试验经常报告所谓的患者报告的结果测量或 PROMs。PROM 是一种问卷，用于评估患者在医疗干预后在某些方面的生活质量、功能或健康状况，而不需要临床医生或其他人对患者的回答进行解释。例如，它可能会询问患者在髋关节手术后攀爬楼梯是否困难，或者癌症治疗是否帮助他们从事自己的爱好。PROM 的主要目标是评估治疗效益或风险，在患者最了解医学结果或从患者的角度最好衡量的情况下。

依据所测量的概念的不同，PROMs 的长度和复杂性可能会有很大的变化。在简单、直接的情况下（例如某种疼痛的强度），一个问题可能就足够了。在其他情况下，可能需要通过多个问题来涉及更复杂的功能的几个方面。无论哪种情况，问卷的设计都应确保仪器可靠地测量所关注的概念。FDA 区分了以下六个测量属性或“测试”（FDA 2009: 11）：

重测或者内部一致性（“在没有预期概念变化的情况下，得分是否随时间稳定？”）
内部一致性（“所谓测量相同概念的回答之间是否存在高相关性？”）
互访者可靠性（“当 PROM 由两个或更多不同的访谈者进行管理时，是否存在回答一致性？”）
内容效度（“是否有证据表明该工具测量了感兴趣的概念？”）
构造效度（“是否有证据表明回答之间的关系符合预期？”）
检测变化的能力（“是否有证据表明该工具能够识别在时间上发生变化的个体或群体的分数差异，这些个体或群体在所关注的概念方面发生了变化？”）。

尽管这些测试看似合理，但它们在方法上并不无害。例如，内容效度是基于定性研究来评估的，这种研究形式包括患者访谈、焦点小组和定性认知访谈（后者是一种要求被调查者大声思考并描述他们在回答问卷问题时的思维过程的方法，并在现场测试访谈中进行后续问题以更好地了解患者如何解释问题）。这种定性研究旨在开发具有标准化含义的问题，这些问题在患者和临床医生之间是共享的。然而，可以说，对于解释诸如“身体疼痛”或“举起手臂困难”等短语，总会存在差异，因为它们涉及患者的经历，而这些经历会因患者而异，并且在同一患者身上也会随时间而变化（Rapkin 和 Schwartz 2004）。此外，可能有很好的哲学理由允许表达足够多的合法观点，而不是坚持在患者和环境之间标准化含义（McClimans 2010）。同样，内部一致性只有在概念相对简单且不同问题确实涉及相同概念时才是可取的。当障碍是异质的时，它的相关性较小（McClimans 和 Browne 2011）。对于每个测量测试，都可以提出这些担忧。最后，当存在多个与某种障碍或治疗相关的 PROM 时，就会出现一个问题。不同的 PROM 在不同测试中得分不同，并且没有普遍有效的模式来衡量它们的相对重要性（同上）。

残疾调整生命年（DALYs）旨在衡量疾病负担。该指标最初由哈佛大学为世界银行和世界卫生组织（WHO）于 1990 年开发，并现在被卫生政策研究人员广泛用于国家间和随时间的比较，以及作为政策制定的工具。它也可以用于衡量干预措施的有效性，尽管这些干预措施通常是狭义上的卫生政策，而不是医学干预措施。WHO 定期对超过 135 种疾病和伤害的 DALYs 进行全球和地区层面的估计（Mathers 等，2002 年）。

DALYs 背后的主要思想很简单。如果危地马拉的一名女性在 63 岁时死于恰加斯病，这将增加 20 个 DALYs 的全球疾病负担，因为与日本的预期寿命相比（日本的预期寿命被视为标准，因为它是全球最高的），她的死亡“过早”了 20 年。如果汉堡的一名男子发生事故导致他终身瘫痪，这将为他剩余的寿命年份贡献 0.57 个 DALYs，因为截瘫的权重为 0.57。因此，每种疾病或损伤都被赋予 0 到 1 之间的数字（其中 0 = 完全健康，1 = 死亡），使其可与其他情况进行比较。例如，失明的权重为 0.43。由于失明对疾病负担的贡献小于截瘫，这意味着从功能能力减少的角度来看，失明被认为比截瘫更轻度（Prüss-Üstün 等，2003 年）。

然而，这个简单的想法却被两个调整复杂化了。典型的疾病负担研究根据患病者的年龄对损伤进行不同的权衡，即使是同一种疾病或残疾，对功能能力受损的人的负担影响也会有所不同。例如，失明在 20 岁发生与在幼年或老年发生相比，对疾病负担的影响更大（Prüss-Üstün 等，2003 年）。此外，如果发生事故的人预计将与疾病共同生活 30 年，未来的残疾年份将按照一个因素进行折现。残疾发生的时间越远，对疾病负担的贡献越小（同上）。

任何社会经济指标的适用性必须根据其所要服务的目的来评估（Reiss，2008 年）。如果 DALYs 被认为是衡量日常概念“疾病负担”的指标，我们可以批评该指标未能考虑到社会、文化、气候和其他疾病或残疾发生的变化。例如，当截瘫发生在那些在公共建筑和交通方面投入更多资源以使之无障碍的社会、对残疾人更加宽容的社会，或者在相对平坦的地区而不是多山地区时，其负担较轻。因此，可以说 DALYs 衡量的是不健康而不是疾病负担（Anand 和 Hanson，1997 年）。同样，由于不健康是以百分比来衡量的，与一个本来就有残疾的人相比，同样的疾病在一个其他方面相当但没有残疾的人身上对衡量的贡献较小。然而，如果 DALYs 用于公共卫生决策，优先考虑那些处境最差的个体可能比相对处境较好的个体更好（同上）。

世界卫生组织非常明确地指出，在构建 DALY 指标时做出的许多选择都是基于价值观的（Murray 1994; Prüss-Üstün et al. 2003）。显然，无法确定截瘫是否比失明更严重地影响了某人的功能能力，更不用说它对疾病负担的具体程度了。同样，早逝导致的时间损失、年龄权重和时间偏好也是如此。虽然由于其价值性质，任何给定的选择都会引起争议，但世界卫生组织在代表社会偏好方面做出了一些努力，而不是基于先验的哲学论证。例如，2003 年世界卫生调查中使用的残疾权重是基于来自 70 多个国家的大型代表性人口样本的健康状态评估（Prüss-Üstün et al. 2003: Ch. 3）。同样，年龄权重是基于经验证明，社会普遍偏好年轻成年人的一年生活价值高于年幼儿童或老年人的一年（Murray 1996）。

Bibliography

Amundson, R., 2000, “Against Normal Function”, Studies in History and Philosophy of the Biological and Biomedical Sciences, 31: 33–53.
Anand, S. and K. Hanson, 1997, “Disability-Adjusted Life Years: A Critical Review”, Journal of Health Economics, 16: 685–702.
Andersen, H., 2012, “Mechanisms: What Are They Evidence for in Evidence-based Medicine?” Journal of Evaluation in Clinical Practice, 18(5):992-999.
Ankeny, R.A., 2002, “Reduction Reconceptualized: Cystic Fibrosis as a Paradigm Case for Molecular Medicine”, in L.S. Parker and R.A. Ankeny (eds.), Mutating Concepts and Evolving Disciplines: Genetics, Medicine and Society, Dordrecht: Kluwer, 127–141.
–––, 2011, “Using Cases to Establish Novel Diagnoses: Creating Generic Facts by Making Particular Facts Travel Together”, in P. Howlett and M.S. Morgan (eds.), How Well Do Facts Travel? The Dissemination of Reliable Knowledge, Cambridge: Cambridge University Press, 252*–*272.
–––, 2014, “The Overlooked Role of Cases in Casual Attribution in Medicine”, Philosophy of Science, 81: 999*–*1011.
Ankeny, R.A. and F. Mackenzie, 2016, “Three Approaches to Chronic Fatigue Syndrome in the United Kingdom, Australia, and Canada: Lessons for Democratic Policy”, in S.M. Dodds and R.A. Ankeny (eds.), Big Picture Bioethics: Democratic Policy Making in Contested Domains, Dordrecht: Springer, forthcoming.
Aronowitz, R.A., 1998, Making Sense of Illness: Science, Society and Disease, Cambridge: Cambridge University Press.
–––, 2001, “When Do Symptoms Become a Disease?” Annals of Internal Medicine, 134: 803–808.
Barro S. and R. Marin (eds), 2002, Fuzzy Logic in Medicine, Heidelberg: Physika-Verlag.
Bekelman, J., Y. Li and C. Gross, 2003, “Scope and Impact of Financial Conflicts of Interest in Biomedical Research”, Journal of the American Medical Association, 289: 454–465.
Bernard, C., 1865 [1957], An Introduction to the Study of Experimental Medicine, New York: Dover.
Biddle, J., 2007, “Lessons from the Vioxx Debacle: What the Privatization of Science Can Teach Us About Social Epistemology”, Social Epistemology, 21: 21–39.
Bishop, M. and J.D. Trout, 2005, Epistemology and the Psychology of Human Judgment, Oxford: Oxford University Press.
Boorse, C., 1975, “On The Distinction Between Disease and Illness”, Philosophy and Public Affairs, 5: 49–68.
–––, 1977, “Health as a Theoretical Concept”, Philosophy of Science, 44: 542–573.
–––, 1997, “A Rebuttal on Health”, in J.M. Humber and R.F. Almeder (eds.), What is Disease?, Totowa, NJ: Humana Press, 3–143.
Campaner, R., 2012, Philosophy of Medicine: Causality, Evidence and Explanation, Bologna: Archetipo Libri.
Canguilhem, G. 1991, The Normal and the Pathological, trans. C.R. Fawcett, New York: Zone Books.
Caplan, A.L., 1992, “Does the Philosophy of Medicine Exist?” Theoretical Medicine, 13: 67–77.
Carel, H., 2007, “Can I Be Ill and Happy?” Philosophia, 35: 95–110.
–––, 2008, Illness: The Cry of the Flesh, Dublin: Acumen.
Cartwright, N., 1989, Nature’s Capacities and Their Measurement, Oxford: Clarendon.
–––, 2007, “Are RCTs the Gold Standard?” BioSocieties, 2: 11–20.
–––, 2011, “A Philosopher’s View of the Long Road from RCTs to Effectiveness”, The Lancet, 377: 1400–1401.
Cartwright, S., 1851 [2004], “Report on the Diseases and Physical Peculiarities of the Negro Race”, reprinted in A.L. Caplan, J.J. McCartney, and D.A. Sisti (eds.), Health, Disease, and Illness, Washington, DC: Georgetown University Press, 28–39.
Clouser, K.D., C.M. Culver, and B. Gert, 1981, “Malady: A New Treatment of Disease”, Hastings Center Report, 11(3): 29–37.
Collingwood, R., 1940, An Essay on Metaphysics, Oxford: Clarendon Press.
Cooper, R., 2002, “Disease”, Studies in the History and Philosophy of Biology and the Biomedical Sciences, 33: 263–282.
Cornfield, J., W. Haenszel, E.C. Hammond, A.M. Lilienfeld, M.B. Shimkin, and E.L. Wynder, 1959, “Smoking and Lung Cancer: Recent Evidence and A Discussion of Some Questions”, Journal of the National Cancer Institute, 22: 173–203.
Dalkey, N. and O. Helmer, 1963, “An Experimental Application of the Delphi Method to the Use of Experts”, Management Science, 9: 458–467.
Dawes, R. and M. Mulford, 1996, “The False Consensus Effect and Overconfidence: Flaws in Judgment or Flaws in How We Study Judgment?” Organizational Behavior and Human Decision Processes, 65: 201–211.
Degeling, C. and J. Johnson, 2013, “Evaluating Animal Models: Some Taxonomic Worries”, Journal of Medicine and Philosophy, 38: 91–106.
Dekeuwer, C., 2015, “Defining Genetic Disease”, in P. Huneman, G. Lambert, and M. Silberstein (eds.), Classification, Disease and Evidence: New Essays in the Philosophy of Medicine, Dordrecht: Springer, 147–164.
Dekkers, W. and M.O. Rikkert, 2006, “What is a Genetic Cause? The Example of Alzheimer’s Disease”, Medicine, Health Care and Philosophy, 9: 273–284.
Demazeux, S. and P. Singy (eds), 2015, The DSM-5 in Perspective: Philosophical Reflections on the Psychiatric Babel, Dordrecht: Springer.
De Vreese, L., E. Weber and J. Van Bouwel, 2010, “Explanatory Pluralism in the Medical Sciences: Theory and Practice”, Theoretical Medicine and Bioethics, 31: 371–390.
Dodds, S.M., 2008, “Inclusion and Exclusion in Women's Access to Health and Medicine”, International Journal of Feminist Approaches to Bioethics, 1: 58–79.
Dresser, R., 1992, “Wanted: Single, White Male for Medical Research”, Hastings Center Report, 22: 24–29.
Engel, G.L., 1977, “The Need for a New Medical Model: A Challenge for Biomedicine”, Science, 196: 129–136.
Engelhardt, H.T., 1974, “The Disease of Masturbation: Values and the Concept of Disease”, Bulletin of the History of Medicine, 48: 234–48.
–––, 1975, “The Concepts of Health and Disease”, in H.T. Engelhardt Jr. and S.F. Spicker (eds), Evaluation and Explanation in the Biomedical Sciences, Dordrecht: Reidel, 125–141.
–––, 1986, “Clinical Complaints and the Ens Morbi”, Journal of Medicine and Philosophy, 11: 207–214.
Epstein, S., 2007, Inclusion: The Politics of Difference in Medical Research, Chicago: University of Chicago Press.
Ereshefsky, M., 2009, “Defining ‘Health’ and ‘Disease’”, Studies in the History and Philosophy of Biology and Biomedical Sciences, 40: 221–227.
Evidence-Based Medicine Working Group, 1992, “Evidence-Based Medicine: A New Approach to Teaching the Practice of Medicine”, Journal of the American Medical Association, 268(17): 2420–2425.
Fabrega, H., 1979, “The Scientific Usefulness of the Idea of Illness”, Perspectives in Biology and Medicine, 22: 545–558.
FDA (U.S. Food and Drug Administration), 2009, Guidance for Industry Patient-Reported Outcome Measures: Use in Medical Product Development to Support Labeling Claims, Washington, DC: U.S. Department of Health and Human Services.
Fischhoff, B., 1975, “Hindsight is Not Equal to Foresight: The Effect of Outcome Knowledge on Judgement under Uncertainty”, Journal of Experimental Psychology, Human Perception & Performance, 1: 288–299.
Fisher, R.A., 1935, The Design of Experiments, Oxford: Oliver & Boyd.
–––, 1958, “Cancer and Smoking”, Nature, 182: 596.
Foucault, M., 1963 [1973], The Birth of the Clinic: An Archaeology of Medical Perception, New York: Pantheon.
Gaines, A.D., 1992, “From DSM-I to III-R, Voices of Self, Mastery and the Other: A Cultural Constructivist Reading of U.S. Psychiatric Classification”, Social Science and Medicine, 35: 3–24.
Gannett, L., 1999, “What’s in a Cause? The Pragmatic Dimensions of Genetic Explanations”, Biology and Philosophy, 14: 349–373.
Gasking, D., 1955, “Causation and Recipes”, Mind, 64: 479–87.
Giere, R., 1984, Understanding Scientific Reasoning, New York: Holt, Rinehart, and Winston.
Gifford, F., 1990, “Genetic Traits”, Biology and Philosophy, 5: 327–47.
Gigerenzer, G., 2014, Risk Savvy: How to Make Good Decisions, New York (NY), Viking Penguin.
Gilliam, A., 1955, “Trends of Mortality Attributed to Carcinoma of the Lung: Possible Effects of Faulty Certification of Deaths Due to Other Respiratory Diseases”, Cancer, 8: 1130–1136.
Gillies, D., 2011, “The Russo–Williamson Thesis and the Question of Whether Smoking Causes Heart Disease”, in P. McKay Illari, F. Russo, and J. Williamson (eds.), Causality in the Sciences, Oxford: Oxford University Press, 110–125.
Glennan, S., 2002, “Rethinking Mechanistic Explanation”, Philosophy of Science, 69: S342–353.
Goldberg, L., 1968, “Simple Models of Simple Processes? Some Research on Clinical Judgments”, American Psychologist, 23: 483–496.
Goosens, W., 1980, “Values, Health and Medicine”, Philosophy of Science, 47: 100–115.
Gorovitz, S. and A. MacIntyre, 1976, “Toward a Theory of Medical Fallibility”, Journal of Medicine and Philosophy, 1: 51–71.
Grove, W. and P. Meehl, 1996, “Comparative Efficiency of Informal (Subjective, Impressionistic) and Formal (Mechanical, Algorithmic) Prediction Procedures: The Clinical-Statistical Controversy”, Psychology, Public Policy, and Law, 2: 293–323.
Hare, R.M., 1986, “Health”, Journal of Medical Ethics, 12: 174–181.
Harris, G., 2005, “F.D.A. Official Admits ‘Lapses’ on Vioxx”, New York Times, 2 March.
Harris, H.W. and K.F. Schaffner, 1992, “Molecular Genetics, Reductionism, and Disease Concepts in Psychiatry”, Journal of Medical Philosophy, 17: 127–153.
Hesslow, G., 1984, “What Is A Genetic Disease? On the Relative Importance of Causes”, in L. Nordenfelt and B.I.B. Lindahl (eds.), Health, Disease and Causal Explanation in Medicine, Doredrecht : Reidel, 183–193.
–––, 1993, “Do We Need A Concept of Disease?” Theoretical Medicine and Bioethics, 14: 1–14.
Hofmann, B., 2002, “On the Triad Disease, Illness, and Sickness”, Journal of Medicine and Philosophy, 27: 651–673.
Horwitz, A.V. and J.C. Wakefield, 2007, The Loss of Sadness, New York: Oxford University Press.
Howick, J., 2011a, “Exposing the Vanities—and a Qualified Defense—of Mechanistic Reasoning in Health Care Decision Making”, Philosophy of Science, 78: 926–940.
–––, 2011b, The Philosophy of Evidence-Based Medicine, Chichester: Wiley-Blackwell.
Huang, H. and A.D. Coker, 2010, “Examining Issues Affecting African-American Participation in Research Studies”, Journal of Black Studies, 40: 619–636.
Hubbard, R. and E. Wald, 1999, Exploding the Gene Myth, New York: Beacon.
Hugh, T. and S. Dekker, 2009, “Hindsight Bias and Outcome Bias in the Social Construction of Medical Negligence: A Review”, Journal of Law and Medicine, 16: 846–857.
Hunter, K.M., 1991, Doctors’ Stories: The Narrative Structure of Medical Knowledge, Princeton: Princeton University Press.
Hurwitz, B., 2006, “Form and Representation in Clinical Case Reports”, Literature and Medicine, 25: 216–240.
IARC [International Agency for Research on Cancer], 2006, IARC Monographs on the Evaluation of Carcinogenic Risks to Humans: Preamble, Lyon: International Agency for Research on Cancer.
Illari, P., 2011, “Mechanistic evidence: Disambiguating the Russo-Williamson Thesis”, International Studies in the Philosophy of Science, 25(2):139-157.
Inborn, M. and K. Whittle, 2001, “Feminism Meets the ‘New’ Epidemiologies: Towards an Appraisal of Antifeminist Biases in Epidemiological Research on Women’s Health”, Social Science and Medicine, 53: 553–567.
Janis, I., 1982, Groupthink: Psychological Studies of Policy Decisions and Fiascoes, Boston: Houghton Mifflin.
Jones, J. and D. Hunter, 1995, “Consensus Methods for Medical and Health Services Research”, British Medical Journal, 311: 376–380.
Juengst, E., 2004, “FACE Facts: Why Human Genetics Will Always Provoke Bioethics”, Journal of Law, Medicine and Ethics, 32: 267–275.
Kass, L.R., 1975, “Regarding the End of Medicine and the Pursuit of Health”, Public Interest, 40: 11–42.
Kingma, E., 2007, “What Is It To Be Healthy?” Analysis, 67: 128–133.
–––, 2010, “Paracetamol, Poison and Polio: Why Boorse’s Account of Function Fails to Distinguish Health and Disease”, The British Journal for the Philosophy of Science, 61: 241–264.
Kitcher, P., 1997, The Lives To Come: The Genetic Revolution and Human Possibilities, New York: Simon & Schuster.
La Caze, A., 2011, “The Role of Basic Science in Evidence-based Medicine”, Biology and Philosophy, 26(1):81-98.
LaFollette, H. and N. Shanks, 1997, Brute Science: Dilemmas of Animal Experimentation, London: Routledge.
Lennox, J.G., 1995, “Health as an Objective Value”, Philosophy of Medicine, 20: 499–511.
Lexchin, J., 2012, “Those Who Have the Gold Make the Evidence: How the Pharmaceutical Industry Biases the Outcomes of Clinical Trials of Medications”, Science and Engineering Ethics, 18: 247–261.
–––, 2012b, “Sponsorship Bias in Clinical Research”, International Journal of Risk & Safety in Medicine, 24: 233–242.
Lippman, A., 1991, “Prenatal Genetic Testing and Screening: Constructing Needs and Reinforcing Inequities”, American Journal of Law and Medicine, 17: 15–50.
Lloyd, E.A., 2002, “Reductionism in Medicine: Social Aspects of Health”, in M.H.V. Van Regenmortel and D.L. Hull (eds.), Promises and Limits of Reductionism in the Biomedical Sciences, New York: John Wiley & Sons, 67–82.
Machamer, P., L. Darden and C. Craver, 2000, “Thinking About Mechanisms”, Philosophy of Science, 67: 1–25.
Macklin, R., 1972, “Mental Health and Mental Illness: Some Problems of Definition and Concept Formation”, Philosophy of Science, 39: 341–365.
Magner, L., 2002, A History of the Life Sciences, New York: Marcel Dekker.
Margolis, J., 1976, “The Concept of Disease”, The Journal of Medicine and Philosophy, 1: 238–255.
Mathers, C., C. Stein, D. Ma Fat, C. Rao, M. Inoue, N. Tomijima, C. Bernard, A.D. Lopez, and C.J.L. Murray, 2002, Global Burden of Disease 2000: Version 2 Methods and Results, Geneva: World Health Organization.
McClimans, L., 2010, “Towards Self-Determination in Quality of Life Research”, Medicine, Health Care and Philosophy, 13: 67–76.
McClimans, L. and J. Browne, 2011, “Choosing a Patient-Reported Outcome Measure”, Theoretical Medicine and Bioethics, 32: 47–60.
Méthot, P.-O., 2011, “Research Traditions and Evolutionary Explanations in Medicine”, Theoretical Medicine and Bioethics, 32: 75–90.
Mezzich J.E., A. Kleinman, H. Fabrega Jr., D.L. Parron (eds), 1996, Culture and Psychiatric Diagnosis: A DSM IV Perspective, Washington, DC: American Psychiatric Press.
Murphy, D. and R.L. Woolfolk, 2000, “The Harmful Dysfunction Analysis of Mental Disorder”, Philosophy, Psychiatry and Psychology, 7: 241–252.
Murray, C., 1994, “Quantifying the Burden of Disease: The Technical Basis for Disability-Adjusted Life Years”, Bulletin of the World Health Organization, 72: 429–445.
–––, 1996, “Rethinking DALYs”, in C. Murray and A. Lopez, The Global Burden of Disease: A Comprehensive Assessment of Mortality and Disability from Diseases, Injuries, and Risk Factors in 1990 and Projected to 2020, Boston: Harvard University Press, 1–98.
Parsons, T., 1951, The Social System, Glencoe, IL: The Free Press.
Pellegrino, E.D., 1979, Humanism and the Physician, Knoxville: University of Tennessee Press.
Pettit, P., 2001, “Deliberative Democracy and the Discursive Dilemma”, Philosophical Issues, 11: 268–299.
Prüss-Üstün, A., C. Mathers, C. Corvalán, and A. Woodward, 2003, Introduction and Methods: Assessing the Environmental Burden of Disease at National and Local Levels, Geneva: World Health Organization.
Rao, G., 2009, “Probability Error in Diagnosis: The Conjunction Fallacy among Beginning Medical Students”, Family Medicine, 41: 262–265.
Rapkin, B. and C. Schwartz, 2004, “Toward a Theoretical Model of Quality-of-Life Appraisal: Implications of Findings from Studies of Response Shift”, Health and Quality of Life Outcomes, 2: 14–25.
Reiss, J., 2005, “Causal Instrumental Variables and Interventions”, Philosophy of Science, 74: 962–976.
–––, 2007, “Time Series, Nonsense Correlations and the Principle of the Common Cause”, in F. Russo and J. Williamson (eds.), Causality and Probability in the Sciences, London: College Publications, 179–196.
–––, 2008, Error in Economics: Towards a More Evidence-Based Methodology, London: Routledge.
–––, 2010a, “Across the Boundaries: Extrapolation in Biology and Social Science, Daniel P. Steel. Oxford University Press, 2007. xi + 241 pages”, Economics and Philosophy, 26: 382–390.
–––, 2010b, “In Favour of a Millian Proposal to Reform Biomedical Research”, Synthese, 177: 427–447.
–––, 2012, “Third Time’s a Charm: Wittgensteinian Pluralisms and Causation”, in P. McKay Illari, F. Russo and J. Williamson (eds.), Causality in the Sciences, Oxford: Oxford University Press, 907–927.
–––, 2015a, “A Pragmatist Theory of Evidence”, Philosophy of Science, 82: 341–362.
–––, 2015b, Causation, Evidence, and Inference, New York (NY): Routledge.
–––, forthcoming-a, “On the Causal Wars”, in H.-K. Chao, J. Reiss and S.-T. Chen (eds.), Philosophy of Science in Practice, Dordrecht: Springer.
–––, forthcoming-b, “Meanwhile, Why Not Biomedical Capitalism?”, in K. Elliott and D. Steel (eds.), Current Controversies in Science and Values, New York (NY): Routledge
Reiss, J. and P. Kitcher, 2009, “Biomedical Research, Neglected Diseases, and Well-Ordered Science”, Theoria, 24: 263–282.
Reiss, J. and S. Wieten, “On Justin Biddle’s ‘Lessons from the Vioxx Debacle’”, Social Epistemology Review and Reply Collective 4(5), 2015: 20-22.
Reznek, L., 1987, The Nature of Disease, New York: Routledge.
Ritchie, K., 1989, “The Little Woman Meets Son of DSM-III”, Journal of Medicine and Philosophy, 14: 695–708.
Russo, F. and J. Williamson, 2007, “Interpreting Causality in the Health Sciences”, International Studies in the Philosophy of Science, 21: 157–170.
Sackett, D.L., W.M. Rosenberg, J.A. Gray, R.B. Haynes, and W.S. Richardson, 1996, “Evidence-Based Medicine: What it Is and What it Isn't”, British Medical Journal, 312: 71–72. pmcid:PMC2349778
Sadegh-Zadeh, K., 2000, “Fuzzy Health, Illness, and Disease”, Journal of Medicine and Philosophy, 25: 605–638.
–––, 2011, “The Logic of Diagnosis”, in F. Gifford (ed.), Handbook of the Philosophy of Science, Volume 16: Philosophy of Medicine, Amsterdam: Elsevier, 357–424.
Sadler, J.Z. and G.J. Agich, 1995, “Diseases, Functions, Values, and Psychiatric Classification”, Philosophy, Psychiatry, and Psychology, 2: 219–231.
Scadding, J., 1990, “The Semantic Problem of Psychiatry”, Psychological Medicine, 20: 243–248.
Schaffner, K..F., 1981, “Modeling Medical Diagnosis: Logical and Computer Approaches”, Synthese, 47: 163–199.
–––, 1993, Discovery and Explanation in Biology and Medicine, Chicago: University of Chicago Press.
–––, 2010, “Interpretive Practices in Medicine”, in P. Machamer and G. Wolters (eds.), Interpretation: Ways of Thinking about the Sciences and the Arts, Pittsburgh: University of Pittsburgh Press, 158–178.
Schwartz, P., 2007, “Decision and Discovery in Defining ‘Disease’”, in H. Kincaid and J. McKitrick (eds.), Establishing Medical Reality, Amsterdam: Springer, 47–63.
Sedgewick, P., 1982, PsychoPolitics, New York: Harper and Row.
Shorter, E., 2008, From Paralysis to Fatigue: A History of Psychosomatic Illness in the Modern Era, New York: Simon & Schuster.
Sismondo, S., 2008, “Ghost Management: How Much of the Medical Literature is Shaped Behind the Scenes by the Pharmaceutical Industry?” PLoS Medicine, 4(9).
Smith, K.C., 1992, “The New Problem of Genetics: A Response to Gifford”, Biology and Philosophy, 7: 331–348.
Sober, E., 1980, “Evolution, Population Thinking, and Essentialism”, Philosophy of Science, 47: 350–383.
Solomon, M., 2007, “The Social Epistemology of NIH Consensus Conferences”, in H. Kincaid and J. McKitrick (eds.), Establishing Medical Reality, New York: Springer, 167–177.
–––, 2011, “Group Judgment and the Medical Consensus Conference”, in F. Gifford (ed.), Handbook of the Philosophy of Science, Volume 16: Philosophy of Medicine, Amsterdam: Elsevier, 239–254.
–––, 2015, Making Medical Knowledge, Oxford: Oxford University Press.
Staley, K., 2004, The Evidence for the Top Quark. Cambridge: Cambridge University Press.
Stanley, D.E. and D.G. Campos, 2013, “The Logic of Medical Diagnosis”, Perspectives in Biology and Medicine, 56: 300–315.
Steel, D., 2008, Across the Boundaries: Extrapolation in Biology and Social Science, Oxford: Oxford University Press.
–––, 2013, “Mechanisms and Extrapolation in the Abortion-Crime Controversy”, in H.-K. Chao, S.-T. Chen and R. Millstein, Mechanism and Causality in Biology and Economics, Dordrecht, Springer: 185-206.
Szasz, T., 1961, The Myth of Mental Illness, New York: Harper & Row.
–––, 1973, The Second Sin, New York: Doubleday.
–––, 1987, Insanity, New York: Wiley.
Thagard, P., 1999, How Scientists Explain Disease, Princeton: Princeton University Press.
–––, 2006, “What is a Medical Theory?” in R. Payton and L. McNamara, Multidisciplinary Approaches to Theory in Medicine, vol. 3, Amsterdam: Elsevier, 47–62.
Tiles, M., 1993, “The Normal and Pathological: The Concept of a Scientific Medicine”, British Journal for the Philosophy of Science, 44: 729–742.
Timmermans, S. and M. Berg, 2003, The Gold Standard: The Challenge of Evidence-Based Medicine and Standardization in Health Care, Philadelphia: Temple University Press.
Tonelli, M., 2006, “Evidence-Based Medicine and Clinical Expertise”, Virtual Mentor, 8: 71–74.
Tversky, A. and D. Kahneman, 1983, “Extensional vs. Intuitive Reasoning: The Conjunction Fallacy in Probability Judgment”, Psychological Review, 90: 293–315.
van Bouwel, J., E. Weber, and L. de Vreese, 2011, “Indispensability Arguments in Favour of Reductive Explanations”, Journal for General Philosophy of Science, 42: 33–46.
Vandenbroucke, J.P., 2009, “The HRT Controversy: Observational Studies and RCTs Fall in Line”, The Lancet, 373: 1233–1235.
Wachbroit, R., 1994, “Normality as a Biological Concept”, Philosophy of Science, 61: 579–591.
Wakefield, J.C., 1992, “The Concept of Mental Disorder: On the Boundary between Biological and Social Values”, American Psychologist, 47: 373–388.
–––, 1996, “Dysfunction as a Value-Free Concept”, Philosophy, Psychiatry and Psychology, 2: 233–246.
–––, 2007, “What Makes a Mental Disorder Mental?” Philosophy, Psychiatry and Psychology, 13: 123–131.
Wartofsky, M., 1986, “Clinical Judgment, Expert Programs, and Cognitive Style: A Counter-Essay in the Logic of Diagnosis”, Journal of Medicine and Philosophy, 11: 81–92.
Weber, M., 2008, “Causes without Mechanisms: Experimental Regularities, Physical Laws, and Neuroscientific Explanation”, Philosophy of Science, 75: 995-1007.
Weightman, A., S. Ellis, A. Cullum, L. Sander, and R.L. Turley (eds), 2005, Grading Evidence and Recommendations for Public Health Interventions: Developing and Piloting a Framework, London: Health Development Agency.
Whitbeck, C., 1977, “Causation in Medicine: The Disease Entity Model”, Philosophy of Science, 44: 619–637
–––, 1981, “A Theory of Health”, in A.L. Caplan and H.T. Engelhardt, Jr. (eds.), Concepts of Health and Disease: Interdisciplinary Perspectives. Reading, MA: Addison-Wesley, 611–626.
WHO [World Health Organization], 1948, Preamble to the Constitution of the World Health Organization as adopted by the International Health Conference, New York, 19 June–22 July 1946; signed on 22 July 1946 by the representatives of 61 States (Official Records of the World Health Organization, no. 2, p. 100) and entered into force on 7 April 1948.
Williams, T.N., T.W. Mwangi, S. Wambua, N.D. Alexander, M. Kortok, R.W. Snow, and K. Marsh, 2005, “Sickle Cell Trait and the Risk of Plasmodium falciparum Malaria and Other Childhood Diseases”, Journal of Infectious Diseases, 192: 178–186.
Woodward, J., 2002, “What Is a Mechanism?” Philosophy of Science, 69: S366–377.
–––, 2003, Making Things Happen, Oxford: Oxford University Press.
Worrall, J., 2002, “What Evidence in Evidence-Based Medicine”, Philosophy of Science, 69: S316–330.
–––, 2007a, “Evidence in Medicine and Evidence-Based Medicine”, Philosophy Compass, 2: 981–1022.
–––, 2007b, “Why There’s No Cause to Randomize”, British Journal for Philosophy of Science, 58: 451–488.
Worrall, J. and J. Worrall, 2001, “Defining Disease: Much Ado about Nothing”, in A. Tymieniecka and E. Agazzi (eds.), Life Interpretation and the Sense of Illness Within the Human Condition, Dordrecht: Kluwer Academic Publishers, pp. 33–55.

Academic Tools

How to cite this entry.

Preview the PDF version of this entry at the Friends of the SEP Society.

Look up topics and thinkers related to this entry at the Internet Philosophy Ontology Project (InPhO).

Enhanced bibliography for this entry at PhilPapers, with links to its database.

Other Internet Resources

上一页科学机制 mechanism in science (Carl Craver and James Tabery)下一页*中国中医哲学——见中国哲学：中国哲学与中医 medicine: Chinese philosophy — see Chinese Philosophy: Chinese medicine

最后更新于4小时前