meta分析步骤详解,以及常见问题解析

作者:SCI医学论文发表 发表于:2015-06-24   点击:

Meta分析的完整步骤,根据个人的体会,结合各位友人的经验总结而成,meta的精髓就是对文献的二次加工和定量合成,所以这个总结也算是对大家经验的meta分析吧。
一、选题和立题
(一)形成需要解决的临床问题:
系统评价可以解决下列临床问题:
1.病因学和危险因素研究;
2.治疗手段的有效性研究;
3.诊断方法评价;

4.预后估计;
5.病人费用和效益分析等。
进行系统评价的最初阶段就应对要解决的问题进行精确描述,包括人群类型(疾病确切分型、分期) 、治疗手段或暴露因素的种类、预期结果等,合理选择进行评价的指标 。
(二)指标的选择直接影响文献检索的准确性和敏感性,关系到制定检索策略。
(三)制定纳入排除标准。

二、文献检索
(一)检索策略的制定
这是关键,要求查全和查准。推荐Mesh联合free word检索。
(二)文献检索,获取摘要和全文
国内的有维普全文VIP,CNKI,万方数据库,外文的有medline ,SD,OVID等。
(三)文献管理
强烈推荐使用endnote,procite,noteexpress等文献管理软件进行检索和管理文献。
查找文献全文的途径:
在这里,讲一下找文献的过程,以请后来的朋们参考(不包括网上有电子全文的):

1.查找免费全文:
(1)在pubmed center中看有无免费全文。有的时候虽然没有显示free full text,但是点击进去看全文链接也有提供免费全文的。我就碰到几次。
(2)在google中搜一下。
少数情况下,NCBI没有提供全文的,google有可能会找到,使用“学术搜索”。本人虽然没能在google中找到一篇所需的文献,但发现了一篇非常重要的综述,里面包含了所有我需要的文献(当然不是数据),但起码提供了一个信息,所需要的文献也就这么多了,因为老外的综述也只包含了这么多的内容。这样,到底找多少文献,找什么文献,心里就更有底了。
(3)免费医学全文杂志网站。Www.freemedicaljournals.com。提供很过超过收费期的免费全文。

2.图书馆查馆藏目录:

包括到本校的,当然方便,使用pubmed的linkout看文献收录的数据库,就知道本校的是否有全文。其它国内高校象复旦、北大、清华等医学院的全文数据库都很全,基本上都有权限。上海的就有华东地区联目、查国内各医学院校的图书馆联目。这里给出几个:
(1)中国高等院校医药图书馆协会的地址:http://server14.library.imicams.ac.cn/xiehui/chengyuan.htm,进入左侧的“现刊联目”,可以看到有“现刊联目查询”和“过刊联目查询”,当然,查询结果不可全信,里面有许多错误。本人最难找的两篇文章全部给出了错误的信息(后来电话联系证实的)。
(2)再给出两个比较好的图书馆索要文献的email地址(有偿服务),但可以先提供文献,后汇钱,当然做为我们,一定要讲信誉吆。一是解放军医学图书馆信息部:[email protected],电话:01066932429;

(3)二是复旦大学医科图书馆(原上医):[email protected],联系人,周月琴,王蔚之,郑荣,电话,021-54237822,需下载文献传递申请表(http://202.120.76.225/ill.doc)。其他的图书馆要么要求先交开户费,比如协和(500元),要么嫌麻烦,虽然网上讲过可提供有偿服务,在这里我就不一一列出了。

3.实在不行,给作者发email。这里给出一个查作者email的方法,先在NCBI中查出原文献作者的所有文章,注意不要只限于第一作者,display,abstract, 并尽可能显示多的篇数,100,200,500。然后在网页内查找“@”,一般在@前的字母会与人名有些地方相似。再根据地址来确定是否是同一作者。

4.查找杂志的网址,给主编发信求取全文。这里我就不讲查找的方法了。

5.向国外大学里的朋友求助。国外大学的图书馆一般会通过馆际互借来查找非馆藏文献,且获得率非常高。我的三篇文献是通过这一途径得到的。

三、对文献的质量评价和数据收集
(一)研究的质量评价
对某一试验研究的质量评价主要是评价试验结果是否有效,结果是什么该结果是否适用于当地人群。下面一系列问题可以帮助研究者进行系统的质量评价:
①该研究的试验设计是否明确,包括研究人群、治疗手段和结果判定方法;
②试验对象是否随机分组;
③病人的随访率是否理想及每组病人是否经过统计分析;
④受试对象、研究人员及其它研究参与者是否在研究过程中实行“盲法”;
⑤各组病人的年龄、性别、职业等是否相似;

⑥除进行研究的治疗手段不同外,其它的治疗是否一致;
⑦治疗作用大小;
⑧治疗效果的评价是否准确;
⑨试验结果是否适用于当地的人群,种族差异是否影响试验结果;
⑩是否描述了所有重要的治疗结果;
治疗取得的效益是否超过了治疗的危险性和费用。系统评价者应根据上述标准进行判断,不满足标准的文献应剔除或区别对待(数据合并方法不同) ,以保证系统评价的有效性。
(二)、数据收集
研 究者应设计一个适合本研究的数据收集表格。许多电子表格制作软件如Excel 、Access ,和数据库系统软件如FoxPro 等,可以用于表格的制作。表格中应包括分组情况、每组样本数和研究效应的测量指标。根据研究目的不同,测量指标可以是率差、比数(odds) 、相对危险度( relative risk ,包括RR 和OR) 。各研究间作用测量指标不一致,需转化为统一指标。常用的统一指标是作用大小( Effect Size , ES) ,ES 是两比较组间作用差值除以对照组或合并组的标准差。ES 无单位是其优点。
(三)、数据分析
系统评价过程中,对上述数据进行定量统计合并的流行病学方法称为Meta分析(Meta analysis) 。Meta 意思是more comprehensive ,即更加全面综合。
通过 Meta分析可以达到以下目的:

1.提高统计检验效能; 2.评价结果一致性,解决单个研究间的矛盾;3.改进对作用效应的估计; 4.解决以往单个研究未明确的新问题。
统计分析的指标
(一)、异质性检验
1.检验原理:

meta 分析的原理首先是假定各个不同研究都是来自非同一个总体(H0:各个不同样本来自不同总体,存在异质性,备择假设H1,如果p>0.1,拒绝H0, 接受H1,,即来自同一总体)这样就要求不同研究间的统计量应该接近总体参数真实值,所以各个不同文献研究结果是比较接近,就是要符合同质性,这时候将所有文献的效应值合并可以采用固定效应模型的有些算法,如倒方差法,mantel haenszel 法,peto法等.
2.分类:
异质性检验,包括三个方面:临床异质性,统计学异质性和方法学异质性,作meta分析首先应当保证临床同质性,比如研究的设计类型、实验目的、干预措施等相同,否则就要进入亚组分析,或者取消合并,在满足临床同质性的前提下(非常重要,不能一味追求统计学同质性,首先考虑专业和临床同质性),我们进一步观测统计学同质性。
临床异质性较大时不能行meta分析,随机效应模型也不行.只能行描述性
系统综述(systemic reviews,SR)或分成亚组消除临床异质性.解决临床异质后再考虑统计学异质性的问题.
如果各个文献研究间结果不存在异质性(p>0.1),选用固定效应模型(fixed model),这时其实选用随即效应模型的结果与固定效应模型相同;如果不符合同质性要求,即异质性检验有显著性意义(p<0.1),这时候固定效应模型的算法来合并效应值就是有偏倚,合并效应值会偏离真实值.所以,异质性存在时候要求采用随机模型,主要是矫正合并效应值的算法,使得结果更加接近无偏估计,即结果更为准确.
此外,这里要说明的是,采用的模型不同,和合并效应值的方法不同,都会导致异质性检验P值存在变动,这个可以从算法原理上证明,不过P值变动不会很大,一般在小数点后第三位的改变.
异质性检验的Q 值在固定模型中采用倒方差法和Mantel-haenszel法中也会不同 。
随机效应模型是不需要假定各个研究来自同一个总体为前提,本来就是对总体参数的近似无偏估计,这个与固定模型不一样(必须要同质为基础),所以随机模型来作异质性检验简直是“画蛇添足”,无奈之举!
因此,随机模型异质性检验是否有统计学意义都是可以用,而固定模型必须要求无异质性。可以证明和实践,如果无异质性存在的时候,随机模型退化为固定,即固定模型的结果于随机模型的合并效应值是相等的

目前,国内外对meta分析存在异质性,尤其是异质性检验P值很小的时候,学术界有着不同的争论,很多人认为这个时候做meta分析是没有意义,相当于合并了一些来自不同总体的统计结果,也有人认为,这些异质性的存在可能是由于文献发表的时间,研究的分组,研究对象的特征等因素引起,只要采用亚组分析或meta回归分析可以将异质性进行控制或解释,还是可以进行meta分析,至少运用随机效应模型可以相对无偏的估计总体.这里要强调的是,异质性检验P值较小时候,最好能对异质性来源进行分析和说明。合理进行解释,同时进行亚组分析,相当于分层分析,消除混杂因素造成的偏倚(bias)。

3. 衡量异质性的指标
一个有用的定量衡量异质性的指标是I2,I2 = [(Q – df)/Q] x 100%,此处的Q是卡方检验的统计值,df 是其自由度(Higgins 2003, Higgins 2002)。这个I2值代表了由于异质性而不是抽样误差(机会)导致的效应占总效应估计值的百分率。 I2值大于50%时,可以认为有明显的异质性。
(二)、敏感性分析:

1.敏感性分析的含义:
改变纳入标准(特别是尚有争议的研究)、排除低质量的研究、采用不同统计方法/模型分析同一资料等,观察合并指标(如OR,RR)的变化,如果排除某篇文献对合并RR有明显影响,即认为该文献对合并RR敏感,反之则不敏感,如果文献之间来自同一总体,即不存在异质性,那么文献的敏感性就低,因而敏感性是衡量文献质量(纳入和排除文献的证据)和异质性的重要指标。
敏感性分析主要针对研究特征或类型如方法学质量,通过排除某些低质量的研究、或非盲法研究探讨对总效应的影响。(王吉耀第二版P76中)
“排除某些低质量的研究,再评价,然后前后对比,探讨剔除的试验与该类研究特征或类型对总效应的影响”。(王家良第一版八年制P66、154)
敏感性分析是从文献的质量上来归类,亚组分析主要从文献里分组病例特征分类。
敏感性分析是排除低质量研究后的meta分析,或者纳入排除研究后的meta分析。
亚组分析是根据纳入研究的病人特点适当的进行分层,过多的分层和过少的分层都是不好的。
例如在排除某个低质量研究后,重新估计合并效应量,并与未排除前的Meta分析结果进行比较,探讨该研究对合并效应量影响程度及结果稳健性。若排除后结果未发生大的变化,说明敏感性低,结果较为稳健可信;相反,若排除后得到差别较大甚至截然相反结论,说明敏感性较高,结果的稳健性较低,在解释结果和下结论的时候应非常慎重,提示存在与干预措施效果相关的、重要的、潜在的偏倚因素,需进一步明确争议的来源。

2.衡量方法和措施
其实常用的就是选择不同的统计模型或进行亚组分析,并探讨可能的偏倚来源,慎重下结论。
亚组分析通常是指针对研究对象的某一特征如性别、年龄或疾病的亚型等进行的分析,以探讨这些因素对总效应的影响及影响程度。
而敏感性分析主要针对研究特征或类型如方法学质量,通过排除某些低质量的研究、或非盲法的研究以探讨对总效应的影响。
建议可以看参考王吉耀主编,科学出版社出版的《循证医学与临床实践》。

敏感性分析只有纳入可能低质量文献时才作,请先保证纳入文献的质量!纳入文献的质量评价方法,如果是RCT,可选用JADAD评分。如果病因学研究,我认为使用敏感性分析是评价文献质量(前提是符合纳入标准)的较为可行的方法。
敏感性分析是分析异质性的一种间接方法。
有些系统评价在进行异质性检验时发现没有异质性,这时还需不需要作敏感性分析?
我的看法是需要,因为我觉得异质性也是可以互相抵消的,有时候作出来没有异质性,但经过敏感性分析之后,结果就会有变化。
(三)对入选文献进行偏倚估计
发表偏倚(publication bias)评估(包括作漏斗图,和对漏斗图的对称性作检验)。可以用stata软件进行egger检验。
人是活的,软件是死的,临床是相对的,统计学是绝对的。

我们应当区分三个概念:
一是:文献/试验质量,现在Cochrane协作网称之为“纳入研究偏倚风险”
二是:文献报告质量,这实际上是一个写作表达水平的问题

三是:文献所报道试验的试验质量,如试验设计等等
而系统综述/系统评价尤其是Cochrane系统评价一直强调的是第一类的概念,即为纳入研究偏倚风险的评估,具体内容可在线阅读其官方网之系统评价作者手册5或安装RevMan 5版本后内包含的手册5内相关内容,我再怎么说也没有他们的权威或准确。

95%CI的宽窄实质上反映了试验的精度高低,换言之,上下限的间隔较小、则其精度高,也即是意味着数值资料可靠性比较高,其结果可信度较高,反之则提示可能由于原始数据“丢失”,或样本数量较少所致。但可行区间较宽的试验未必不能纳入分析!

其实,在制作一片合格或高质量的系统评价包括定性与定量的过程中,在我以前的实践过程中,也走了不少弯路,甚至不少结果也是粗制滥造,制造垃圾。现在我最大的体会就是,除了必须具备系统评价相关方法学的能力以外,关于专业背景与对临床试验设计、实施、结果的统计学分析等相关知识也是同等重要。

系统评价的基础一直基于这样一个假设,就是关于某干预措施的RCT其试验设计、受试标准的设置与把握、试验实施、统计学分析等环节没有错误发生,即单个试验其试验质量与结果统计学分析都是恰当合理的,而纳入系统评价中÷,重点评价其避免试验偏倚的努力程度或者偏倚风险的大小而已。
四、总结:
(一)结果的解释
Meta- 分析结果除要考虑是否有统计学意义外,还应结合专业知识判断结果有无临床意义。若结果仅有统计学意义,但合并效应量小于最小的有临床意义的差值时,结果不可取;若合并效应量有临床意义,但无统计学意义时,不能定论,需进一步收集资料。不能推荐没有Meta-分析证据支持的建议。在无肯定性结论时,应注意区别两种情况,是证据不充分而不能定论,还是有证据表明确实无效。

(二)结果的推论
Meta-分析的结果的外部真实性如何?在推广应用时,应结合该Meta-分析的文献纳入/排除标准,考虑其样本的代表性如何,特别应注意研究对象特征及生物学或文化变异、研究场所、干预措施及研究对象的依从性、有无辅助治疗等方面是否与自己的具体条件一致。理想的Meta-分析应纳入当前所有相关的、高质量的同质研究,无发表性偏倚,并采用合适的模型和正确统计方法。
(三)系统评价的完善与应用

系统评价完成后,还需要在实际工作中不断完善,包括: ①接受临床实践的检验和临床医师的评价; ②接受成本效益评价; ③关注新出现的临床研究,要及时对系统评价进行重新评价。临床医师只有掌握了系统评价的方法,才能为本专业的各种临床问题提供证据,循证医学才能够顺利发展。

荟萃分析一些疑问:

1 GRADE系统到底应该如何正确使用

简而言之,GRADE评价证据的质量,以结局指标为单位,适用于系统评价制作者解读最后证据,卫生技术评估人员和指南制定者;cochrane偏倚风险工具评价单个研究的偏倚风险,主要用于系统评价的文献质量。两个的用途和角度都不一样。还是举例说明吧。A药治疗B 疾病产生了结局C。同时有5个RCT来评估这个疗效。对于每个RCT来说,都存在偏倚风险,因为其estimate of effect 与 true effect可能会有不同,因为RCT有可能没随机,随机方案没隐藏,没盲法或随访短,都会造成偏离真实疗效,这个时候,就需要cochrane偏倚风险工具对每个研究进行评估,理论上有6条,可以根据具体情况增减;而GRADE评价什么呢?针对结局C,如果5个RCT都报告的该结局,那么GRADE将会从5个方面评价总的证据质量:第一,偏倚风险,即跟cochrane评价方式一样;第二,是否直接证据(相对于间接证据而言),请见我上面发的论文,主要针对指南制定者;第三,结果的一致性,比如这几个RCT就此结局的一致性,研究间的异质性,可用I2来判断;第四,结局的精确程度,可看CI;第五,发表性偏倚。如果不合格就降级,严重不合格就降2级,RCT始于高质量,但可能会被降为中等、低或极低质量。

 

疑问2:是否可以认为GRADE等级评定是对cochrane偏倚风险等级评定的再次评估?在完成一篇系统评价时,是否只用GRADE评分就可以完成质量评价?还是要写作cochrane偏倚风险评估,然后再看情况进行GRADE评分?如果它评价出来的等级都是极低,这种情况如何分析呢?

这是一个基础但非常重要的问题,首先需要明确回答的是,GRADE分级系统不是对cochrane偏倚风险等级评定的再次评估。它们之间的关系是先后顺序关系,即系统评价制作人员在纳入最终的研究之后,首先需要对其进行偏倚风险评估,即看看这些研究所得出的对疗效的估计值存在多大的偏倚,主要有6条标准。而GRADE分级是对整个系统评价结果的解读,即制作人员完成一篇系统评价之后,其最终的结果如果要拿来用或指导实践,则需要进行对证据质量和推荐强度进行分级,但其分级的基础或单位是结局,而非研究。在分级的过程中,有5个因素会降低RCT的质量,其中一个就是偏倚风险,从这个角度讲,GRADE会根据或借鉴cochrane对偏倚风险的结果,但GRADE会考虑总体的证据质量,因为决定证据质量高低的因素不仅仅是其偏倚风险,还有其精确性、一致性、是否直接或间接证据和发表性偏倚。还是举例:比如有个系统评价要评价奥司他韦治疗流感的有

效性和安全性,但纳入的研究都是奥司他韦治疗普通流感的RCT,其用cochrane偏倚风险评估发现,随机盲法分配隐藏随访都做的非常好,也就是说,基本上不存在偏倚,但是,如果系统评价的使用者,其治疗对象是 2009新甲流患者,那么,尽管该系统评价纳入的研究偏倚风险极小,但作为决策的证据,其质量可能会较低,原因是该证据不是直接证据,而是间接证据。因为没有奥司他韦直接治疗甲流的RCT。
GRADE是一种规范、系统和透明的方法,经过GRADE分级,如果被降为极低质量,仍然可以很好地指导决策者,因为好的证据不等于高质量的证据,就算证据质量极低,但如果是经过严格的方法得出的科学结论,仍然可以很好指导实践,更为重要的是,低或极低质量的证据,不一定就是弱推荐,即有可能会成为强推荐,因为证据质量只是决定推荐强度的一个因素而已。还是如上例所言,如果经过严格评价,发现奥司他韦治疗甲流的质量极低,但综合利弊后,WHO世界卫生组织还是将奥司他韦列为治疗甲流的强推荐,作为各国卫生医疗部门治疗甲流的首选。

 

疑问3:结局的精确程度,就是CI,在那个范围算是精确程度好的?

怎么样才算结局的不精确?CI多宽才算不精确?我倒是非常愿意跟你做下来慢慢讨论,因为这个问题可能需要一天?一周?甚至一个月来探讨。GRADE工作组在JCE上面的系列文章,即将发表的一篇,就是专门针对你这个问题的,他们的初稿有40多页,里面详细讨论了各种情况。可见你这个问题的重要程度。在这里我无法三言两语给你一个确定的答复,等我把他们这篇专门论述不精确问题的文章过几天上传后,你可以详细阅读,但到最后可能也无法得出确定的答复,因为 GRADE的目的不是给你最佳答案,而是当前最适,也即,可能会形成的共识。当然,他们也提供了较为简单的判断标准,你可以参阅GRADE 软件的说明书,我大概就系统评价员的二分类变量说明一下:
1. 一般而言,可信区间告诉了我们随机误差对证据质量的影响。如果可信区间比较宽,则降低1个等级,非常宽则降低2个等级。怎么样算非常宽,依据个人的判断和所纳入研究的具体情况。

2. 证据质量的不精确,对指南制定者和系统评价者的定义和含义均不相同,对于指南制定者,证据的精确性关键在于是否可以帮助作出一个明确的推荐,而对于系统评价员,只涉及对疗效评估的信心。这句话的意思是,如果你是一个系统评价员,则无需考虑成本、毒副作用以及获益的大小,这是指南制定者在评价精确性时需要考虑的。
3. 当试验纳入较少受试者和较少事件时,效应量可信区间较宽,结果精确度低。这个是肯定的,因为可信区间的计算,以RR为例,最主要跟SE(lnRR)有关,即其对数的标准误的大小有关,而SE(lnRR)的计算是基于每个组的事件发生数r和总人数n,r和n越大,则SE(lnRR)越小,可信区间越窄,随机误差越小,结果越精确。
4. 二分类变量指标可有两个原因降低证据质量级别:
a. 累积样本量小于理想信息量(optimal information size, OIS),有推荐说系统评价纳入总数应该为4000,干预组对照组各2000,低于这个或事件发生总数低于300(拇指定则阈值)则降级;Ann Intern Med. 2007;146:878-881
b. 合并效应量或其它最佳估计效应量的95%可信区间或其它评估精确度的指标,包含了无效和明显获益或明显危害。即,宽到同时与无效线和门槛线 threshold相交。那啥是个门槛线?可以将RRR25%为一个门槛,即干预组某种不良事件的危险性与对照组相比较,降低了25%。
5. 等GRADE的精确性那篇文章发表了,我上传到此地,大家进一步讨论。

 

疑问4:生存曲线不能做Meta分析,但是我们肿瘤的文章需要评价的主要指标就是生存指标,请问有何解决的高见吗?似乎原来看过说可以转变成分类变量-变为每年病死率的比较或生存人数比较,或者转变为时间相关资料-O-E and Variance来做,如何处理?

1、生存分析预后相关的meta文章,有2种指标:1. 二分类 2. HR(O-E and Variance),此种方法最理想,不过存在技术上的难度。

2、(1)假如你采取方法1,操作起来比较简单,但是涉及到一个脱落问题,一般以某某年死亡人数为指标(坏事件,标签位置不动),不过存在统计学上的缺陷,需要分别计算短期及长期的死亡人数,例如,1,3,5年时间截点时的死亡人数;
(2)假如你采取方法2,方法学上有优势,不过数据的提取问题比较复杂,假如文章里面有HR,最好(一般有多因素HR和单因素HR之分,一般多因素最好,没有,只能勉强用单因素,都有,可以行亚组分析);没有的话,通过计算得来,也可以;实在没办法,你只能用Engauge软件自己提取(不过我发现这种方法当连续取点时候,有很多缺陷,见下面帖子里面我提到的缺陷问题)。不过HR的好处就是,不需要计算那么多时间截点,可以自己定义一个时间截点(根据临床经验,例如,胃癌定义5年的OS和PFS即可,要是分别计算一下3年及5年的OS+PFS 就更完美啦)。
3、预后的文章,肿瘤复发是一个很重要的指标,一般最好在文章里面要有体现。
(1). 你用HR做指标,不需要分别作1,3,5年生存率了,只要时间最长的那年的HR即可,一般选取随访终点时的HR作为指标。这样HR代表的是整体的情况,而1年和3年HR作指标都是不合适的;
(2). 另外,因为不同研究的随访截止时间不同,

可能存在严重的临床异质性,因此,我个人倒是觉得,是否可以用5年HR作为outcome呢?(不同肿瘤的最有意义的cutoff或者不同,不过个别肿瘤一般是5年为比较有意义的cutoff,你研究的肿瘤是什么就不知道了。不过很多研究一般随访都在60-72个月左右,所以取5年(60个月),还是比较不错的);
(3). 假如不这样的话,也可以采用随访终点时间HR作指标,不过要是存在异质性,要进行合理的分析,或者进行亚组分析等等相关问题,同时注意,亚组分析增加了假阳性的概率,因此需要慎重。
(4). 其他指标如95%CI, Ln(HR),SE(ln(HR))等指标可以计算的。可以将软件import as 一个excel表格的形式,然后有一个Excel统计计算表格,具体如何操作,请参照A版的经典帖子,里面说的很清楚,很明白,学习1-2天基本就会了

还有一些新的问题:

第一:我研究的问题,基本纳入的研究,在5年以后实验组和干预组的生存曲线已经是平行的了,那么我是否只可以计算到5年的?因为多数研究曲线是只到5年的,有个别的研究到6年的(72个月),并且这几个研究的5年—6年曲线是平行的,我又必要还继续包含这段时间吗?这种情况的 5-yearOS/PFS HR有差异吗?假如有,差异大嘛?(此问题已经解决,完成可以只计算5年的HR,结果没有变化,具体验证过程见下面。

第二:我发现了一个问题,假如在同一个横坐标上面取点,即使我事先在图中画一条竖线,穿越干预组和对照组,我描点的时候,无论我多么精确,这2个点理论上,应该在最终的excel生成1组数据,例如, 36,42.1%,24.1%; 然而,最终实际上却产生了2组数据,36, 42.3%, 24.2%; 36.01, 42.0%, 24.0%,这个问题如何解决呀?我希望做的是在同一个横坐标,只产生一组数据,这个误差倒是允许范围的,不过假如并没有事先画竖线,那么此时曲线A和曲线B的取点都具有随机性,上下曲线的取点问题更具有随机性,那么会产生更多多余的点,那么此时造成得误差可能要远远大于事先画竖线造成得误差,因此我觉得,必须要事前做竖线,然后尽量保证曲线A和B在同一个横坐标取点(结果假如是2组数据,这时候可以删除一组即可),不知道我的理解是否正确?大家有没有遇到这个问题呢?

第三:我想在生存曲线上面上一些竖线,有没有什么简单点的方法?可以我自己选择位置画竖线,这样我就可以在自己觉得拐点比较多的地方多取几个点,在相对变化不大,甚至是水平线的地方少取几个点,不过这样还是解决不了同一个竖线,2条曲线取点,最后产生2组数据的问题!

第一个问题:可能有微小的差别,计算HR需要用全所有的随访数据,最后一年虽然两者曲线平行,但有差别,而这个差别肯定会为总的HR作贡献,至于如何改变,你得自己试验一下,算到5年和6年各用一次,如果有差别,个人以为应以6年为准,随访完整,不然,你相当于是选择性报道了全面一部分数据,而后一部分弃之不用。而且,不同随访期的数据是可以合并的,所以还是用全数据的好。

第二个问题:佩服兄弟的精益求精,但是这个问题恐怕是无法解决的,因为取点的时候是一个像素一个像素的移动,可以想象成以像素为单位的整数点移动,而软件更精确,36和36.01可能就是同一竖线上的点。
导致此结果还有个原因可能是:原始生存曲线图可能有点儿歪,旋转了一点点儿,就是x轴可能不是完全或者绝对水平,因为在photoshop等软件中旋转图像的时候也是以像素为单位改变,而不能连续改变。所以,即使画了竖线,但这条竖线和y轴不是绝对平行的,而在Enguagedigitizer中,(0,0),(100,0),(0,100)三个点取好后生成的X轴和y轴却是和原生存曲线图的x轴和y轴完全吻合(理论上),无论原始图如何歪。
这两个原因都可能导致同一竖线,在2条曲线上对应的是不同横坐标啦。

理论上的探讨:可以尝试举个例子,采用极限法假设:

1)假设实验组A和对照组B从一开始到最终随访结束,没有任何一个人死亡,生存率从0-72个月均为100%,无论随访多长时间,2条曲线均是平行的,那么此时计算任何一年的HR和随访结尾年的HR必须是一致的;

2)同理,假如随访到5年以后,曲线开始平行,假如之后2组均没有死亡,一直保持平行,那么你曲线到6

年,抑或100年,或许结果都没有变化,这就是一般作者在曲线平行以后只再随访1-2年的原因;

因此我觉得,曲线平行之后,可以不用再计算了,生存曲线的研究是微积分的原理,个人认为是累计曲线斜率微积分后的均值问题,平行以后,2条曲线的斜率为0,任凭如何微积分也是为0,对整体的斜率均值没有影响(胡诌的,呵呵。当娱乐了)

1)因为Excel只有33个点可以用,这些点,我首先在所有拐点地方作图,在斜率变化大的地方作竖线,最后剩下的平均分配一下即可!

2)前辈,你的方法虽然密集,最终要进行人为的删减,这此时你是无法将Excel里面的点和曲线里面的拐点和切率变化大的地方像对应的(假如你没有事前画竖线的画,您只能靠肉眼了),这样看来,我的方法理论上是有更大优势大,优于连续取点的方法。连续取点虽然看起来特别密集,其实在excel里面进行认为删减那个步骤,却产生了更大的误差(我认为连续取点最大的误差在此处,而不在软件里面取点那步)。
疑问5:计量资料知道实验组(样本量56)和对照组(样本量56)的样本均数,如何求得样本标准差SD,谢谢!如果求不出来,找作者咨询样本里每个病人的具体资料吗?

目前来说,这样的数据无法和M以及SD合并,我一般是在资料表格里面列出来,但是不算入统计
因为这个是用中位数来描述原始资料的集中趋势,用的四分位数描述原始资料的离散趋势,反应原始资料是偏态分布,是正偏态分布还是负偏态分布就不得而知了,偏态分布,我们如果使用平均数就不能很好的代表整体数据
这样的话,就求不出SD,更没有M,即使你要到原始资料,还是要用中位数来表示,因为原始资料不是正态分布

 

疑问6:我的一篇文章里面,P值取了0.05,而没有取大多数人采用的0.1,貌似很多人也存在这个疑问,到底是取哪个值更加理想呢?

对于取0.05还是0.1,这个问题上存在争议。我个人倾向于使用0.1,这样结论更稳定,更强健
如果P值<0.05,那么你取0.05和0.1都一样,都用随即模型
如果P值>0.1,那么你取0.05和0.1都一样,都用固定模型
但是如果P值介于两者之间呢,比如0.07,这时候,你取0.1,就用随机模型,那么95%CI范围增大
如果你取0.05,就用固定模型,95%CI范围变小,容易出现阳性结果,这样的阳性可能是假阳性,也会导致发表偏倚
所以,我个人更倾向于用0.1来定义,这样结果更稳定把

另外,纠正一个错误,用什么模型,和I2关系不大,甚至没关系,只看P值

疑问7:固定和随机效应模型的选取问题,见过一些文章是同时采取固定效应模型和随机效应模型,这时候就不需要讨论I2和P值的问题来,不知道这样是否值得借鉴?

关于模型的选用,也是存在争议的。大致有三派吧:
第一个,根据I2定义模型选用,常取用50%,也有采用其他的界值的,这一个为很多新手所使用,也就知道有异质性用随即模型
第二个,根据P值定义模型,具体情况参考第一个问题答案
第三个,都使用随即模型,可能很多新手不明白了,怎么这样,依据是什么呢?依据是:当异质性较小或者没有异质性时,用随机还是固定,结果基本上没有什么明显的差别,当异质性很大时,只能选用随即模型,所以可以说,在任何情况下,都使用随即效应模型,这个属于保守派

个人比较倾向于第三个观点和第二个中的定义P=0.1

不过这些都有被使用,看个人爱好吧,本来就没有很明确的规定,投稿的时候,审稿人是大爷,他说你错,你就要改

 

疑问8:文献(RCT)质量评价是否用 risk of bias?还是现在不多用的Jadad或者改良的Jadad?

对于RCT质量的评价,无论用risk of bias还是哪种形式的JADAD,个人认为没啥区别,因为质量评价是个很主观的,不那么客观,你严格,就质量差一些,你宽松,质量就好一些,这个也看审稿人的爱好要求把
质量评价是针对单个研究的,但是对于meta分析,合并研究,我不可能抓住哪一篇低质量研究不放,重要的是纳入的研究的总体的质量如何,强调一下,纳入研究的整体质量,而不是单个研究,这就存在纵向和横向写法,有的质量评价,在Results部分,会说Jadad评分的平均数或者中位数是多少,有的会具体的写出来多少个研究报道了随即方法,分配隐藏,双盲方法,随访等情况

 

疑问9:实用询证医学方法学这本书里讲到做敏感性分析时,如具有同质性,选择固定效应模型;如存在异质性时,先分析原因,使用敏感性分析或分层分析,使之达到同质后在用固定效应模型。我想请教您如何使用敏感性分析或分层分析达到同质?具体如何操作?

如具有同质性,选择固定效应模型;如存在异质性时,先分析原因,使用敏感性分析或分层分析使之达到同质后在用固定效应模型
这还是关系到异质性的问题,也是meta分析新手最棘手,最害怕的事情,但是这一关必须过要不很难在循证道路上有提高
只要有meta分析存在,就会有异质性存在,临床异质性,方法学异质性,统计学异质性,往往临床异质性和方法学异质性会带来统计学异质性,现在比较常用的衡量异质性的定量指标是I2,I2=0%,只能说没有统计学异质性,并不能说没有其他两种异质性
所谓的同质也是相对的,没有绝对的同质,对于这句话的理解,同质了,就用固定效应模型,存在异质性时,先分析原因,使用敏感性分析或者分层分析可能会消除或降低异质性,或者找到异质性的来源,这样分开的亚组就同质了,可以用固定效应模型
可能你做了很多去寻找异质性来源的工作,但是并没有消除异质性,没有找到来源
Meta分析不灭,异质性就存在。异质性时meta分析的一个特点,任何一种方法都有优缺点
有异质性并不可怕,首先找到来源,给出合适的解释,但是初学者千万不可纠结于异质性而把自己套进去,最重要的是如何证明你的结论是可靠,强健的,这才是重点
当有明显的异质性时,下结论要严谨,不要太肯定

疑问10:比如我观察一种降糖药物对血糖的影响,一篇研究实验组血糖均数从11降到8,另一篇实验组从9降到7,那我是不是得输入他们降糖前后的差值,还是得先做一下统计,看他们基线相差是否有统计学意义,如果没有统计学意义,直接输入治疗后的数值就行?这些过程我在写文章时需要交待一下吗,因为我看的文章里好像基线都是P值大于0.05的。

我觉得你应该采用组间的组内变化比较
也就是你说的降糖前后差值


疑问11:找的危险因素的流行病学研究,但是在各研究中,暴露风险因素的暴露定义比较相差很大,有些是曾经ever vs. never,有些是大于》6 vs. <6年做比较,还有些是Nonregular vs. reguIlar ,发现很难合并,碰见这种情况该如何处理?

这种情况,因为暴露分级不统一,你可以做一个SR,系统综述,定性的描述目前的研究情况,可以列表给出,对每个纳入的文章进行分析,这可能是最好的办法了

疑问12:我做干预的meta很少,主要是危险因素的,我最近看了很多干预RCT的meta分析,发现大部分仍然采用Jadad评分标准,但是手册上是建议用风险评估工具的,请问倾向于用哪种?

干预meta分析的质量评价有很多种,但是主流也就是Jadad评分和考克兰风险偏倚评估这两种。对于这两种评价系统,我们先对比一下:

对比这两个系统可以发现其实两者是大同小异的
当然考克兰更具体详细
每个评价工具都有自己的优缺点
Jadad量表最大的缺点就是没有考虑分配隐藏,优点是简单易行,新手容易使用,量化,对比文章就可以知道给不给分,客观性相对强一些,主观性较低
考克兰评价最大的缺点是主观性很强,新手如果使用不当,会带来严重的错误,甚至笑话,优点就是全面,建立在Jadad基础上的一个更具体更全面的系统
但是工具不是盲目使用的,根据目前RCT的质量来看,Jadad并不过时,为什呢?如果一个研究质量好,那么采用Jadad也是满分,关键是现在的研究很多都不报告随机方法,盲法的使用,更不用分配隐藏问题了,基于这些,Jadad还是有自己的地位的
举个例子吧,对于有些RCT,比如外科系统的,很难实施双盲,那么拟采用Jadad可能就会降低研究质量
当 然,考克兰也有自己的缺点,比如RCT,本身就随机,那么对于随机这一项,最低级别就是unclear,不存在high risk,对于其他一些项目,我估计研究者自己本身都不知道会不会存在这种问题,我们又怎么清楚呢?我们评价的时候就是给个unclear,这样的评价项目有好几个,叠加一起,某种程度上使得研究质量评估偏高于实际质量
对于质量评价的选择,每个人有自己的习惯,每个工具也有自己的优缺点,我们只需要根据实际情况进行灵活运用,不需要一味的打击或者废弃每个工具
我只能说,Jadad现在还不过时,基于现在的RCT质量

疑问13:有的文章只给出crude OR ,而另一些文章里面只给出 adjusted OR。如何合并? 2、如果需要合并 adjusted OR ,而个别文章只有crude OR,怎么办?3、使用adjustedOR值或crude OR进行合并各有何利弊呢?

1. 最好都使用adjsuted OR,如果原文只提供了crude OR,那也只能使用这个代替了,可以一起合并
2. 答案同问题1
3. 使用adjusted OR合并,在某种程度上消除其他混杂因素对结果的影响,校正后的OR结果更真实,我们一般都是优先使用adjusted OR

疑问14:荟萃分析局限性
理想Meta分析是指纳入所有高质量、同质的研究,无发表偏倚,并采用正确统计方法。然而,由于纳入所有研究十分困难,并且异质性和发表偏倚均无法避免,故Meta分析存在一定的局限性。
Meta分析属二次研究,是一种回顾性研究,无法消除合并研究的异质性,其论证强度不如多中心大样本RCT。异质性来源包括:① 病例来源(如亚洲、欧洲人群)不同;② 病例选择标准(如年龄、疾病分期、病理类型)不同;③ 干预措施(给药方式或维持治疗方案)不同;④ 对研究终点指标的定义不同,如生存期起点的定义不同可造成总体生存时间不同;随访间隔不同可造成无疾病进展期(PFS)不同。
目前,即使有临床试验注册网,亦难以获得全部阴性研究结果,不可能完全避免发表偏倚。2008年《新英格兰医学杂志》发表的一项关于抗抑郁药物临床试验发表偏倚现状的研究显示,在74项美国食品与药物管理局(FDA)注册研究中,约 31% 的临床研究结果未正式发表,其中主要为阴性研究结果。
疑问15:如何提高荟萃分析质量?
目前,Meta分析质量亟待提高。国外学者研究显示,科克伦(Cochrane)图书馆中的36篇Meta分析中的44.4%存在方法学问题,而其他杂志的103篇Meta分析中的79.3%存在方法学问题。提高Meta分析质量须注意以下4点:① 文献收集的全面性决定了结论的可靠性;② 合并文献的研究质量决定了结论的可靠性(如采用Chalmers评分、Jadad评分等评价RCT研究质量);③ 选择正确统计方法,如采用剪补法分析不同年限、人种、样本量及质量评分的研究④ 规范写作,严格按照Meta分析报告标准(PRISMA声明)写作。

  • 暂无相关日志