医学文献的是与非：发表的论文未必就是真理

　　1897年，8岁的Virginia OHanlon写信给《纽约》求证一个问题：“世界上到底有没有圣诞老人？”这是Virginia的父亲Phillip OHanlon博士给孩子出的一个主意，因为“如果《纽约》给予肯定答复，那么事实就是这样”。

　　而现如今许多临床医生和医疗卫生专家，可能类似地盲目信任着印刷文字所呈现的“真理”，如同“《新英格兰医学》（NEJM）、《美国医学会》（JAMA）、《柳叶刀》（The Lancet）如此之，那么事实就是这样这样的”。

　　假设变量X与Y之间有联系，那么事实上变量X导致Y、抑或是变量Y导致X皆有同等机会的可能性。在大多数情况下，哪个变量为因、哪个变量为果是显而易见的。例如，如果某研究显示“吸烟”与“冠状动脉心脏病（CHD）”之间存在统计学关系，那么推断结果很明确，就是“吸烟”导致了“CHD”，而非“CHD”促使了人们“吸烟”。

　　随便任意一项研究，发现有两个变量X和Y之间有相关性，而实际上总是存在着这样一种可能：两者之间仅是随机发生的偶然事件，进而促成了一个关联罢了。

　　大多数人评估某结果是否为偶然事件时，依赖于检验统计学指标P值是否小于0.05。然而，事实上也存在多种理由可以解释单纯依赖P值解决问题的错误性。Steven Goodman围绕P值进行过精彩的综述分析（详见A dirty dozen: twelve P-value misconceptions. Semin Hematol. 2008;45:135-140），对于阅读医学文献的读者而言可谓一篇不容错过的必读文章。

　　为了说明这一点，以ISIS-2临床试验为例。该试验结果表明，心梗发生后给予患者阿司匹林可降低死亡率。然而，亚组分析却意外发现，那些双子座和天秤座的患者没有因此获益，其他星座的患者因服药而获益，且统计学分析显示P＜0.00001。除非我们愿意重新审视一下所谓“占星学”的科学性，否则我们不得不承认这一结果纯属偶然。

　　同样，Counsell等也通过掷3种不同颜色骰子的实验，极好地模拟了理论临床试验及其荟萃分析的结果。实验要求学生们每人掷1对骰子，6点模拟表示临床试验患者结局死亡，其他数字象征患者继续存活。同时，还告知学生们其中有一种骰子比另一种骰子“更有效”或“更无效”（就是说能掷出更多的6点，喻指临床试验研究中患者更易出现死亡）。

　　结果果不其然，掷红色骰子没有发现差异之处，而掷白色和绿色骰子却显示出象征39%的风险降低（P=0.02）。有的学生甚至认为他们的骰子是“灌铅的”。这一发现非常出乎意料，因为Counsell只分发给学生们普通的骰子，并跟他们开了一个玩笑而已。但掷白色和绿色骰子（象征不同偏移影响）出现的差异却是完全随机的结果。

　　有时想起“偶然”在统计分析中能起到如此大的影响，着实令人震撼和不安。如上所述的亚组分析就是虚假关联的典型代表。多数研究人员将检验水平定位为有统计学意义或犯1类错误的概率定位为5%。

　　在某种程度上是可以估计到已发表文献中出现这些假阳性结果的概率的。假设某种情况下所有推测中有10%实际为线类错误（判断存在关联性而实际上并无关联的概率，即假阳性）的概率为5％、犯2类错误（判断不存在关联性而实际上存在联系，即假阴性）的概率为20%，这是由多数临床试验设定的标准允许错误比例。这样就可以建立如下所示的二联表：

　　当变量X和Y之间没有真正的关联时是会出现偏倚的，但有一种是由于我们设计研究时制造出来的。Delgado-Rodriguez和Llorca发现74种最常见偏倚，大致可归纳为2大类：选择偏倚和信息偏倚。

　　选择偏倚的经典例子之一就是1981年发表在NEJM上的一项研究，其结果显示饮用咖啡和胰腺癌发病之间存在相关性。该研究招募对照组时出现了选择偏倚，导致对照组出现消化性溃疡病的比例很高，该组病人为了不加重病情而几乎不饮用咖啡。

　　由于所选对照组饮用咖啡基线水平与普通人群存在差异，所以对照组饮用咖啡和发生癌症的相关性就这样凭空造了出来。当使用合适的对照组后重复该研究时，并未发现两者间有联系。信息偏倚与选择偏倚不同，当收集数据或测量数据存在系统误差或检验因素、结局的测量方法不完美时，可发生信息偏倚。例如，吸烟者告知研究人员自己吸烟者，或是研究对象系统性报低或报高自身的身高情况。

　　有一种特殊情况称为回忆偏差，主要是调查研究对象既往的情况，由于被调查者记忆失真或不完整造成结论的系统误差。

　　例如，INTERPHONE研究旨在调查手机与脑肿瘤之间的相关性，抽查实验组和对照组手机通话记录发现，两组研究对象出现较大且无规律的回忆偏差，其中实验组对象存在高估更长时间通话周期的情况。这样偏差很大的回忆可能导致出现手机通话和脑肿瘤存在相关性的结果，即使实际上两者并未有联系。

　　区群是另一种有意思的信息偏倚，是指研究者用一种集群的分析单位做研究，而用非集群的分析单位作结论的现象，即使用整体人群水平的情况为个别患者的风险情况下结论。类似的例子就是近期由Messerli在NEJM上发表的一篇没必要当真的文章，该研究显示具有较高巧克力消费的国家荣获诺贝尔居多。

　　其中“国家”水平的数据存在的问题在于，“国家”不吃巧克力，且“国家”不会赢得诺贝尔；“人”吃巧克力，“人”能荣获诺贝尔。这项研究尽管可以当做趣闻读一读，但该文并没有建立好立论的根本点，就是荣获诺贝尔的个体才是“真正吃”巧克力的人。

　　另一种常见的区群例子就是讨论身高和死亡率之间的相关性。有大量的综述研究认为身材矮小与寿命延长有相关性。然而，其中多数研究是以国家水平数据进行讨论分析的。丹麦人平均比意大利人高，冠状动脉心脏病的发病率也更高。

　　然而，如果在该国观察双胞胎或个体情况，你会发现相反的关联性，即身材矮小的个体更易发生心脏病。同样，错误出在以国家整体而非个人为单位。

　　不像偏倚，混杂常出现在当变量X和Y之间真正存在相关性之时，但该相关性大小受第三个变量的影响；偏倚是人为因素造成的，也是收集数据时不恰当的选择病例或错误造成的，而混杂因素是自然存在的。

　　例如，糖尿病是肾功能衰竭和心脏疾病之间相关性的混杂因素，因为前者可以造成后两者出现。虽然肾衰患者有发生心脏病的高危性，但若不考虑糖尿病的固有风险，则会使两者联系看起来强于真实情况。

　　混杂是每一项观察性临床研究普遍存在的一个问题，统计学调整并不能总是除去这一点。即使某些设计极佳的观察性研究也败在混杂因素方面上了。例如，长久以来认为激素替代疗法是女性发生心脏疾病的因素，直到“妇女健康”随机化临床研究驳斥了这种观点。虽然尽力进行统计学调整，但是总存在“混杂”（指那些混杂因素虽然经过统计学处理，但由于测量误差的存在，测量有误的那一部分混杂产生的效应仍然会对结局的真实联系）。然而，简单地把更多变量放入多因素模型中并不一定是更好的办法。过度校正也是一个麻烦，这样调整非必要变量可能会导致出现偏倚结果。

　　可以通过随机化处理混杂问题。当将研究对象纯属偶然地随机分配至一组或另一组中时，任何混杂因素（即使是未知的因素）应该均匀地分布在实验组和对照组中。然而，这是要求建立在真正随机化的基础之上的。

　　以1996年一项研究为例，该研究想要比较腹腔镜和开腹阑尾切除术治疗阑尾炎预后的情况。研究在白天时进展得很顺利，但在夜班期间，要求必须有行腹腔镜手术的主治医生在场，才能做腹腔镜阑尾切除术。结果就是，值班的住院医生不想他们的主治医生，因而将半透明的随机化分组信封向光处看里面分组情况，作弊识别患者是开腹手术还是腹腔镜手术。当他们发现信封里面是分配患者行开腹手术时（不需主治医生在场也更节省时间），就拆开这个信封并将其余信封放回原处，供第二天早上使用。由于理论上在夜间接受手术的病例比可以保守等待择期第二天早上手术的病例病情更重，所以值班住院医生的作弊就使得研究结果发生了偏倚：病情更重的患者因此做法偏向于行开腹手术，使开腹手术组的预后比真实情况差得多。

　　因此，尽管通常认为随机化试验是解决混杂因素的好方法，但是如果没有恰当掌握好随机化过程，仍会存在混杂干扰。在这种情况下，使用不透明的随机化分组信封兴许可解决这个问题。

　　最后，让我们做一个不大可能的假设：我们要进行一项试验，其中每个细节都完美无缺，也没有出现上述所谈及的各种问题；最大的问题出现在我们对试验结果的解释上。NEJM上曾有过一篇文章，结论称非裔美国人比白人行血管造影的可能性低40％。

　　该研究名动一时，但随后Schwartz等指出，这项研究结果被夸大了。如果研究者使用比值比代替风险比，那么该研究的结果就成为7%而非40%，因而其实这篇文章也就不会被推崇到这么瞩目的地位。

　　能选择正确的统计检验方法是一项较为困难工作。近20年前，Sackett等曾一度声称要“比值比！”然而过去这么长时间了，他们依然还在文章中用着这个统计学指标。另一个重要问题就是使用“相对风险”还是“绝对风险”。尽管后者显然结论偏性更重些，但是一项针对约350个研究的综述分析却发现，有88%的研究选择使用“绝对风险”报道结果。

　　此外，过度依赖“相对风险”也可能产生结论。例如，Baylin等研究称，饮用咖啡后一小时内发生心肌梗死的相对风险是1.5（即风险增加50%）。该个备受瞩目的结论被Poole《至编辑读者来信》中以犀利言辞予以。

　　Poole将1.5的相对风险度换算成绝对风险，结果就解释为“每饮用200万杯咖啡出现一次心脏事件”。显然，设计极佳的试验研究也要放在实际临床背景下解释，同时还要谨记：有统计学意义并不意味着存在临床意义。

　　综上所述，有人会质疑临床试验可能会出现种种错误，那么我们为何还费劲进行临床试验呢？因为我们不愿像文章开头提到的小Virginia那样，相信上刊登的一切信息。我们并非愤世嫉俗，而至少应对发表的研究文章持一个质疑态度。

　　质疑是好事，它使我们时时挑战自以为已经的、众所周知的事物。倘若没有这种质疑的态度，我们可能仍旧对女性服用激素替代疗法用来预防心脏病，可能仍旧在患者心梗后使用I类抗心律失常药物，可能仍旧随随便便使用COX-2剂，可能仍旧……援引Fiona Godlee博士在BMJ上发表的一篇针对循证医学的述评总结：“这是一个有缺陷的系统，但仍是我们现有的最好的体系。”

论文下载

医学文献的是与非：发表的论文未必就是真理