张运 中国工程院院士 医学博士、教授、博士生导师
山东大学副校长、医学院院长、教育部和卫生部心血管重构与功能研究重点实验室主任、山东省心血管病临床医学中心主任、山东大学齐鲁医院心内科主任。主要研究方向是动脉粥样硬化,承担国家“863”重大项目课题、国家“973”项目课题、国家“十一五”科技支撑计划、国家自然科学基金重点项目、海外青年学者合作研究基金、卫生部临床学科重点项目等30余项国家和省部级科研课题。
现代医师面临许多问题。随着时代的进步,越来越依赖于临床研究,资料非常多。我们采访张运院士,就医生如何设置具体临床试验及其考虑事项进行详细的阐述。并指出,现在医生在临床中要形成自己的治疗决策。努力使患者获益。
现代社会里医师面临许多问题,其中有一点就是医生所面对的资料是非常多的。当我还是医学生的那个年代,对一个患者的治疗决策完全取决于年资。随着时代的进步,我们现在越来越依赖于临床研究。所以我们开始做临床试验,然后到OBSERVATIONAL包括做一些观察性研究。在此基础上把很多临床研究放在一起,可以做一个OVERVIEWS,即系统总数,而以上这些我们都需要依赖于临床试验。虽然医生有临床指南,但如何把指南落实到临床中呢?对现在的医生而言,决定一个患者的治疗方案看似单,实际上非常复杂。过去我们听长辈的,谁资历高听谁;现在我们要自己看很多的文献,而且要参与很多临床试验,最后形成自己的治疗决策。而经历那么多的过程,目的是要最终使我们的患者获益。
最初科学问题的设置
像写标书一样,一个临床试验好不好,最重要的就是开始的一个科学问题。无论我们是基础还是临床研究,一定要找到一个很好的科学问题。和基础研究不同,临床研究要结合临床,现在通行的评价标准叫做FINER标准。分为5个部分,5个单词的开头字母形成FINER。首先是Feasible,可行性,我们不能想的很理想化,但实际操作做不到。第二,Interesting,有趣的,就是大家感兴趣,临床医生所关心的问题。第三个Novel,这个是应该排在第一位的,也非常重要,一定要是新的东西,不能重复别人的研究。第四个是Ethical,在道德伦理上是符合患者利益的。第五个是Relevant,指的是临床意义,要能解决临床问题。这五点是衡量问题设置是否到位的标准。
设置清晰的临床分期
众所周知,临床试验大概分4期,新药评价也是如此。
Ⅰ期:待新型方法出来后进行耐受性试验,是对我们一些志愿者等人进行的一些新的药物和新的方法,目的是知道这个药物能不能够耐受,重点是要做一些药代动力学参数。
Ⅱ期:在患者当中做临床试验,这一期主要是来评价量效范围。药物的剂量上限是多少,另外副作用到底怎么样,还有就是得到病理生理的一些启示,所以Ⅱ期的临床试验都是比较小的。
Ⅲ期:大规模的临床试验。这个就是在Ⅱ期的基础上进行放大。这时候就需要一个我们新型评价方法和传统的评价方法的比较,看新型方法到底怎么样。如果说Ⅲ期试验主要还是看量效,那么Ⅲ期就要和已有的方法进行对比。如果是还没有已有的阳性药物也可以和安慰剂对比。
Ⅳ期:上市后的检测。主要是检测上市后的疗效,特别是检测副作用。
试验方法的分类比较
临床试验基本分两大类,一种是非随机对照,一种是随机对照。下面我会说到几种方法。举个非随机临床试验的例子。在我还是医学生的年代,当时写文章时候通常先设定入组的标准,然后研究者自行把患者分成2组:一组是用治疗药物,一组是用对照药物,然后进行对照。根据设定的终点,最后确定是否P值<0.05,试验是否有意义,写文章时也常用这种对比。这是一种方法,但这种对比其实是非随机性的,而且常常掌握的患者数量很少。
另外一种是在以前资料库中找出已有的的研究做对比。在过去的相似的研究中找一组和现在的研究进行比较。这是一种由历史来控制的临床对比研究。
第三种就是在80年代经常出现的,叫做CROSSOVERTRIAL。这种方法就是同样一组患者我们先用A药物进行治疗,一段时间后我们根据我们预设终点作参照看他是不是达到效果。达到效果后停药,经过洗脱期将药物代谢掉,然后同样一组患者作为自身对照再转成药物B,再过一段时间观察他的药效如何。最后在写文章时候对比A和B。这种实验是假设患者在接受两组实验时本身的状态不变。另外就是患者在接受完第一组治疗在经过药物洗脱期之后,药物代谢完全,在下一组的实验中没有受到前一组药物的影响。
现在随着RCT的广泛应用,这种CROSSOVER TRIAL的应用现在很少了。因为A组药物很可能在洗脱期没有完全洗干净而对B组药物试验时会产生影响,那样的话A和B之间很可能产生药物的相互作用。还有一个因素就是患者在Ⅰ期和Ⅱ期试验时,患者的自身状态很可能已经发生改变了。
第四种对照是撤药临床试验。同样我们还是给一组患者A药物治疗,治疗一段时间看治疗效果,达到我们的设定效果之后,之后观察看撤药后的效果,然后进行两者的对比,是看用药以后的效果及撤药后的效果。
进入90年代之后,大家广泛应用的是随机对照的临床试验。其基本构架还是设定一个临床试验的标准,当然这个标准是可以改变的,有的时候可以是修改式的设计。如果这里涉及到药物的副作用,最初设计的不合理,可以做一些修改,当然这样做的话就会引起一些人为的误差,所以最好把预先设定的标准一直进行到底不更改。但大家都知道,我们实际临床试验操作中还这种理想化还是有困难的,即便是已经在试验进行当中了,还是会有异议,会发现当初的设计不合理,有时候也会在专家商讨之后做些修改。要强调的是这时候的随机就已经不是我们一开始时候的那种我们医生自己在进行随机了。机器程序所选的随机更客观。有了随机的对照组,一组用随机的药物,一组用对照的药物,具体用安慰剂还是阳性药物,这个要看你研究的时机了,研究时是首例药物还是之前已有阳性药物。然后我们最开始就设定好设计一级终点。最后经过随访,看是不是达到显着的差异。
实验中的析因分析的运用
在临床试验中还经常用到析因分析。设定A和B各5000,再各选2500同用另一种,来看AB之间对比,及A和B分别与安慰剂对比效果,来试验A和B药物共同使用是不是比单独使用效果要好。这样我们要可以用减少患者所需量,可以减少投入,减轻负担。如果我们不做析因分析,我们就需要大量的病例。所以析因分析可以让我们根据他们之间的差异来得出我们要的结论,这样就可以用比较少的投资来得到比较多的答案(图1)。
临床试验的合理调整
心内科医师在试验中经常接触的一个词叫MACE,即主要心血管事件,另外还有主要心脑血管事件。在临床试验终点选择的时候,我们有很多重点,一开始就要设定好试验要终止的时间。如果试验最终达到我们设定的终点,那我们就说达到阳性结果了。累积事件率发生太多,会导致结果不准确,所以这种方法要调整量,或是调整设定终点。所以我们现在设定的都是硬终点来评定大部分的临床试验。
随之而来的问题是,我们试验的药物越来越多,阳性结果越来越多,每次都要和新的进行对比,成本就越来越高,样本量也越来越大。另外还有一种平衡获益风险,把这个叫净临床获益。因为任何一种药物都有临床好的一方面和有副作用,将这两个加在一起,计算净的获益及计算净的不良事件。除了硬终点我们还有一个替代终点,这些年用比较多。替代终点都是定量化的,都是连续变量,它的好处是连续变量,可以做连续的分析,另外样本量比较低,因为不需要观察很长时间。但是替代终点越来越受到批评,因为它并不能很好的反应我们的临床预后,替代终点阳性未必代表患者将来的硬终点是阳性。
还有就是这几年新出的叫做非劣效对照试验。以往就是说谁好谁坏,很简单,但现在好药越来越多,不是药品本身不好,是对手太强,要打败对方,确实要求比较严。这类非劣效对照实验首先要设定H0假设,就是假说,H0假说是假设对照两组是没有差别的,将HA的P值设为0.05,通过研究证明试验组P值小于对照组,就是用实验去证明HA假说去推翻H0假说。这过程中我们产生一型误差,是人为设定的可接受误差,是0.05,小于0.05我们就认为是有差异的。二型误差是我们行政机构所设定的。非劣效临床试验首先是要设立标准,就是M,假设研究对象与标准对照疗效相当,在可信区间较大的情况下,检验疗效差值可否小于M,这就是非劣效临床试验的临床原理。最后将实验结果进行整理。
临床试验存在的问题
首先我们要看到临床试验给我们带来了革命性的改变。临床试验彻底改变了以前我们只靠推测,靠病理生理等治病经验来治疗的情况。但临床试验本身还是有些问题。首先设定终点的问题。为了取得更多阳性结果,很多人采用修饰的办法,比如说采用中间终点或复合终点,但其实这两个终点都存在问题。其它问题还包括有患者代表性、亚组分析、统计学、发表不全和不发表等问题。
我们必须明确,什么是合适的临床终点?应该要评价患者的存活率、患者无心血管事件、生活质量、及临床费用。主要是评价两个方面,live longer or feel better。surrogate endpoint(替代终点)在FDA中有定义,它是一个实验室指标,是一个替代终点,不能完全反应治疗的效果,如测量患者的感觉怎么样,功能怎么样等。实际上,我们在观察一个疾病在到达设定终点之前,要观察是否有试验的一次指标能反应临床终点,并能够反应临床终点,也就是具有一致性。
另一方面应该能反应药物治疗、介入、手术等是否有对设定终点的改变,这是我们希望的情况。一个是他的自然病程能反应临床终点,另外经过治疗以后,改变治疗终点也意味着改变以后的临床终点,往往有很多中间终点失败的例子。例如一个药物去减低动脉硬化,继而降低死亡率,但结果是动脉硬化降低的很好,但死亡率升高了,这都说明很多试验终点的指标不能反应患者的预后。另外一个就是composite endpoints,就是复合终点,大家觉得单一试验难以取胜,或有点太浪费资源,那就采用复合终点,把心肌梗死、脑出血、等等多种病组在一起,即把多种试验的项目叠加,都是为了能得到一些好的医学统计的能力。但实际,即使是综合时得到的数据是有统计学意义的,但这些复合终点中的每一个终点的方向和幅度都可能差距很大,出现多种因素不能统一,叠加之后有些数据被抵消了。
最后我们来谈一下Meta分析情况。有人称其为21世纪的炼金术,实际上Meta分析也是有一定的问题。大家知道Meta分析是根据一些已经发表的资料,那些藏起来的、不愿意发表的资料你是看不出来的,换句话说,它不能公正反应试验的真实性,所以在Meta分析汇总的时候还是会隐瞒一些真相,差别会很大。所以很多数据一起的时候,可以作为我们的参考,但不代表具有循证医学的意义。
总结
客观地说,随着临床试验的应用,很多文献表明,如果我们很好的遵照循证医学的结果,按照临床试验去做,同时整合我们的临床知识,还是能显着的降低死亡率的。最后套用MD MACC主编DeMaria先生的一句“The data from RCTs represents the beginning of the decision-making process,not the end”。从RCT循证医学得到的一些资料,只是我们开始决策治疗患者的一个开始,而不是结束。
Lxiaokun
评论时间:2014/5/25 5:26:30
本文价值较高