真实世界研究用什么统计方法?就是普通的回归方法!JAMA、BMJ主刊也这么用

很多人对真实世界临床研究比较感兴趣,也在咨询,真实世界应该用什么统计学分析方法,一定要做倾向得分匹配吗?之前老套的回归分析方法不能用了吗?

不是的。

一般来说,真实世界研究与随机对照试验最大的差别之一是,真实世界研究会由于分组不均衡,存在着混杂偏倚,导致真实世界研究结果可靠性不足。

怎么办,一般情况下,最常用的方法包括传统的回归分析、网红方法倾向得分法、高大上的工具变量法等一些方法。

回归方法被称为传统方法,是因为它被发现已经快150年了!百年来如一日,手段和方法似乎就那么回事。最近几年已经被倾向得分法鄙视地一塌糊涂,毫无还手之力!

但实际上,真实世界研究也没有那么复杂的统计方法,回归分析也没有那么不堪,和倾向得分法之间,就是伯仲之间!

真实世界研究采用两种形式的回归来控制混杂:

第一种,最普通的一种,就是把混杂因素和研究的目标因素一同放入回归模型开展分析;

第二种,借助“效应改变法”来进行回归分析,控制因素!

本文借助两篇文献就来说说如何应用最普通的回归方法将文章发表在顶级JAMA和BMJ主刊上。

两篇顶级论文的基本介绍

第一篇 :BMJ: 享受艺术,延长寿命!

这篇探讨英国人艺术参与的不同频率与死亡率的关系。研究选择了2004-2005年6710名50岁及以上社区居民,随访14年后发现:与从未参与艺术活动的人相比,不断参与包括看电影在内的艺术活动的人在跟随期间的总死亡风险降低了14%,经常参与接受艺术活动的人死亡风险降低了31%。结论是人老了多参与艺术活动,看看话剧、看看电影,都是延年益寿的好事。

这是个观察性队列研究,研究因素是参与艺术的频率(从不、偶尔、经常),对照组是从不参与艺术活动的人,结局是生存时间资料。由于是观察性研究,有一堆的混杂因素。

第二篇 :JAMA: 过早自然绝经和手术绝经增加心血管疾病风险

2006-2010年间,研究组在英国招募了144260名40-69岁绝经后的女性,并随访至2016年8月。自然过早绝经指40岁前未经手术自然绝经,手术过早绝经指40岁前行双侧卵巢切除术,正常绝经的女性为对照组。在144260名绝经后女性中,与正常绝经的女性相比,自然过早绝经与手术过早绝经组中发生心血管疾病事件风险比分别为1.36和1.87,且具有统计学意义!总之,40岁前自然绝经或手术绝经增加了绝经后女性复合心血管疾病的风险

这同样是个观察性队列研究,研究因素绝经特点(绝经时间>40岁、绝经时间<40岁但自然绝经、绝经时间<40岁但手术绝经),对照组是绝经时间>40岁的女性,结局同样是生存时间资料。这个研究显然也有一堆的混杂因素。

两篇顶级论文的基本统计分析套路

一般来说,对于观察性研究,基本思路较为简单,也就是先做一个基线差异性比较,然后挑选混杂因素开展回归分析,然后。。。。没有了!

别以为这两篇论文顶级论文会有多么高级的方法,他们也就这么干。我们不妨来看看他们的统计学方法

 

首先,进行基线差异性比较

 

第一篇BMJ:

第二篇JAMA:

第一篇用卡方,第二篇还考虑了定量数据的方差分析和秩和。

 

其次,上马回归分析

 

两篇论文都是生存时间资料,具有随访时间和生存结局,对于这类数据,我们一般采用K-M方法和COX回归。这碗酒,JAMA和BMJ也都干了!

 

第一篇BMJ:

第二篇JAMA:

然后,列出混杂因素

 

任何好的任何,对与混杂因素的分析不能含糊。既然要控制混杂,必须列出哪些是潜在的混杂因素。

 

第一篇BMJ:

第二篇JAMA:

注意:COX回归都有等比例风险的假设的论证,因此,两篇论文分别都说:

其方法如出一辙,都是Schoenfeld residuals test

 

核心的回归分析方法就是这些。

两篇论文的主要结果

第一篇BMJ

第二篇JAMA

闲来郑语

当然,必须承认,作为顶级期刊发表的论文,统计学方法必然非常详细,具体还有很多小细节和考究,有兴趣的可以发送关键词到公众号对话框进行学习

 

我这里想说的是,作为真实世界研究,缺失值处理和敏感性分析手段是不可或缺的!JAMA有一长段论文涉及缺失值处理,BMJ则花了足足三段文字探讨敏感性分析。

 

回归分析来控制混杂因素,那么如何挑选潜在混杂因素呢?一般情况下,基线存在着差异的变量可以认为是潜在混杂因素,所以观察性研究必须要结合基线差异性探讨。

 

此外,基线差异性的变量可能不是混杂变量,可能是中间变量!怎么办?结合有向无环图(directed acyclic graphs,DAG)是最佳的策略,比如BMJ这篇就是这么说的: