浅述效应指标、P值及临床价值间的关系

用户头像
Wankm5
 · 广东  

近期$康方生物(09926)$ 由于HARMONi临床实验的结果引发了大家不少的讨论,由此打算先写一篇文章探讨怎么合理评估临床实验,并对之前的文章系统性梳理NSCLC的过往临床研究并对HARMONi-3实验结果尝试预判(一)作一些补充。一家之言,若有错漏,欢迎指正。

让我们带着以下问题,并从几个临床实验的案例开始:

1.药物的效应指标有哪些?

2.在一个临床实验中,我们需要关注的指标还有哪些?

3.怎么平衡数学上的统计学是否显著与真实世界的药效之间的关系?

HARMONi-A的研究设计

本研究共纳入322例不适合手术或局部治疗的晚期鳞状非小细胞肺癌(NSCLC)患者,按1:1随机分配至依沃西单抗(20 mg/kg Q3W)或安慰剂组。两组患者均联合培美曲塞(500 mg/m²)与卡铂(AUC5)治疗4周期,随后进入单药维持治疗阶段。随机分层因素包括是否经治3代EGFR-TKI与是否出现脑转移。本研究以PFS为主要终点,OS为关键次要终点。

背景介绍

背景介绍中主要包含三个方面:未被满足的临床需求、临床研究进展不及预期、依沃西单抗(AK112)的潜力:

1)未被满足的临床需求:EGFRm NSCLC的新患者每年有60-100万,而当前的一线标准治疗是三代EGFR-TKI。但经治的患者产生耐药性是无可避免的,目前后线治疗的选择有限。

2)临床研究进展不及预期:该领域先前的探索,包括添加PD-1/L1免疫联合化疗及抗血管生产药物(VEGF),其总生存期(OS)均未能取得统计学显著性改善。

3)依沃西单抗(AK112)的潜力:依沃西单抗是首款同时靶向PD-1和VEGF的双特异性抗体,其在中期分析中展现了联合化疗相对化疗在后线患者中的显著性获益。

本次报告为最终且仅有的OS分析报告。

统计分析

本实验采用经典的固定顺序检验策略,PFS首先在双侧α为0.05(对应单侧α为0.025)的水平上进行检验,只有在PFS达到统计学显著性后,OS才会在相同水平下进行检验。本次最终分析的OS将与全球实验HARMONi同步进行。

受试者分布

该部分无亮点,需要关注的是数据截止时间(2025.04),中位随访时间约为2年半(32.5个月),实验组(97.5%)和对照组(99.4%)几乎所有人都已经终止药物治疗。

基线特征

总体而言,两组间受试者分布均衡,脑转移患者22.35%,接近9成的患者接受过三代EGFR-TKI的治疗。

中期分析的结果

经IRRC评估的中期分析的数据结果表现优异。依沃西联合化疗组与化疗组的mPFS分别为7.1个月vs4.8个月;HR=0.46(95%Cl:0.34-0.62),疾病进展或死亡风险降低54%,且P<0.001;药物组与化疗组的ORR分别为50.6%vs35.4%,DCR分别为93.1%vs83.2%;KM曲线在1个多月时即迅速分开,且持续保持分离,获益趋势显著。

关键次要终点OS的最终分析

作为本实验的关键次要终点(关键次要终点与次要终点的区别:前者高度重要,常与主要终点并列;后者仅为支持性、探索性终点),依沃西联合化疗组的OS在最终分析中体现出了较化疗组更强的获益,具体为16.8个月vs14.1个月,Δ=2.7个月,HR=0.74(95%Cl:0.58-0.95),P=0.019<0.05。作为首款能在EGFR-TKI耐药后线治疗NSCLC患者中PFS、OS双阳性的免疫药物,依沃西未来的潜力值得期待。

OS亚组分析

OS的亚组分析显示,各亚组趋势与总人群一致。依沃西在经治EGFR-TKI及经三代TKI治疗的亚组中均表现出了更好的生存获益。而在脑部转移患者中,依沃西也取得了积极的治疗趋势。值得注意的是,依沃西在女性亚组中表现并不理想(HR=0.93)且该人群占比不低,约为50%。

是否出现脑转移及在EGFR 19Del和L858R基因突变的亚组分析见上图。结果显示,无论是是否出现脑转移,无论是19Del或L858R突变,依沃西联合化疗都相对化疗有生存获益,且新药组在第24-28个月都展现了较为显著的药物拖尾效应。

后续接受的抗肿瘤治疗

化疗组接受后续治疗的患者的比例高于新药组约10%。具体而言,接受了靶向治疗的分别为50.3%vs54%,患者主要接受了安罗替尼、伏美替尼、奥希替尼等TKI及贝伐珠的治疗;而接受了化疗的分别为39.8%vs43.5%,患者主要接受了紫杉醇、多西他赛、含铂化疗的治疗。

安全性

治疗期间出现的不良事件概况见上图。整体上,对比两次随访数据,两组治疗期间的不良事件、大于等于3级不良事件、严重不良事件及期间致死率大致近似。具体来看,依沃西组治疗期间不良事件总体相当,3级以上不良事件发生率高于安慰剂组约12%,严重不良事件发生率高于对照组约16%,停药率高3.7%,致死率大体相当。随着治疗时间的推移,最终分析中两组的期间三级以上不良事件发生率、严重不良事件发生率、停药率相对于初次随访分别上升了约5%、7%及3%。

TRAE(治疗相关不良事件)方面,整体上看,二次随访时新药组的三级以上TRAE、SAE、停药率相对初次随访分别上升了5.6%、3.7%及4.4%。依沃西组的三级以上TRAE、SAE、停药率相对于对照组高约15%、14%及6%。

常见TRAE谱无显著差异,表明依沃西总体安全性可接受。依沃西组相对于对照组TRAE事件发生率相差较大的TRAE谱分别为:食欲下降、便秘、低白蛋白血症、蛋白尿、甲状腺功能减退、高胆固醇血症及高血压。三级以上TRAE相差较大的分别为:中性粒计数下降、血小板计数下降。

总结

依沃西联合化疗在后线治疗EGFRm NSCLC患者中展现了临床上有意义且统计学上具备显著性的OS获益,而此前的单药联合疗法(PD-1+/-VEGF)都没有在该适应症取得OS的获益。依沃西组的总体安全性可控,能够为EGFR-TKI耐药患者提供一种新的治疗选择。

接下来我们来看一下另一个同样瞄准EGFRm NSCLC适应症的患者人群的临床实验(这次我们尝试通过论文载体的方式去解读临床实验):

OptiTROP-Lung04的实验设计

本研究是一项多中心、随机、开放标签的III期临床试验,共纳入376例EGFR-TKI治疗失败的EGFR突变nsq-NSCLC患者。患者被按1:1随机分配至Sac-TMT单药组(5mg/kg, Q2W)或培美曲塞+铂类对照组(卡铂AUC5或顺铂75mg/m²)化疗4周期,后续均采用培美曲塞(500 mg/m2,Q3W)单药维持治疗。随机分层因素包括是否经治3代EGFR-TKI与是否出现脑转移。本研究以PFS为主要终点,OS为关键次要终点。

统计分析

本实验中分配给PFS的α为双侧0.0337,分配给OS的α为双侧0.0124。

基线特征

总体而言,两组间受试者分布均衡,患者年龄在31岁-75岁之间,其中39.6%为男性。大多数(74.5%)患者从未吸烟,绝大多数入组患者(97.6%)为Ⅳ期患者,绝大多数(94.7%)的患者接受过三代EGFR-TKI的治疗,约三分之一的患者在后线使用了三代TKI。

主要终点PFS

Sac-TMT组与化疗组的中位PFS分别为8.3个月 vs 4.3个月;HR=0.49(95%Cl:0.39-0.62),疾病进展或死亡风险显著降低51%。

亚组分析显示:总体而言,各亚组趋势与总人群一致。但脑转移患者(占18.4%)的疗效并不理想(HR=0.73),该群体仍是未来治疗探索的难点。

关键次要终点OS

首次期中分析显示,sac-TMT组相对化疗组的OS分别为NRvs17.4个月;HR=0.60(95%Cl:0.44-0.82),双侧P=0.001<0.0124,达到了统计学显著。且KM生存曲线在早期就呈现了分离,且分离度在不断扩大,这都表明了药物在该适应症的疗效。

总体而言,各亚组趋势与总人群一致,均有获益趋势。值得注意的是,男性患者的疗效(HR=0.70)要差于女性患者(HR=0.54);脑转移的患者的疗效(HR=0.65)也低于无脑转移的患者。

后续治疗分布

后续抗肿瘤治疗能够帮助我们更好地解读OS曲线,对照组中高达85.5%的患者在停止实验用药后接受了后续治疗,其中19.6%的患者交叉使用了sac-TMT,53.6%的患者接受了化疗,12.8%的患者接受了含培美曲塞的化疗。而在实验组中,72.3%的患者接受了后续治疗,其中1.4%继续使用ADC,41.9%患者接受了后续化疗,37.2%的患者使用了培美曲塞。后期的交叉用药让评估OS变得复杂,但即便如此,sac-TMT仍在首次中期OS分析中做出了显著的生存获益,这表明sac-TMT在EGFRm NSCLC患者中确实是一款好药。

ORR和DoR分析

实验组和对照组的ORR分别为60.6%、43.1%,组间差距Δ=17%;DoR方面,实验组为8.3个月,对照组为4.2个月。

安全性

两组间整体不良事件发生率相当,但从mDoT来看,sac-TMT组相对化疗组分别为9.6个月vs4.9个月,也即是使用ADC的药物的治疗时间多于化疗4.7个月。但总体不良事件发生率差别不大,因此我认为sac-TMT的安全性优于对照化疗组。两组间TRSAE的对比(9%vs17.6%)也能论证我的观点。

从具体的不良反应谱看,sac-TMT不良疾病谱及特点为:

1. 脱发(84%vs9%,风险比RR=9.3)、口腔炎(64.4%vs4.9%,RR=13.14;≥3级:4.8%vs0%)、体重下降(27.7%vs15.4%,RR=1.8)、厌食症(41.5%vs31.9%,RR=1.3)、皮疹(18.6%vs7.7%,RR=2.41)、腹泻(10.1%vs3.3%,RR=3.06

2. 眼部表面毒性效应(干眼症、泪液分泌增加、角膜炎)(9.6%vs0.5%,RR=19.2),无三级以上事件。

3. sac-TMT组没有发现用药引起的间质性肺炎;sac-TMT组相对化疗组拥有更低的血液学毒性(贫血、血小板减少症低于化疗)。

总结

sac-TMT在EGFRm NSCLC患者中展现了显著优于标准疗法的PFS和OS生存获益。

两款药物的对比

接下来我们对两款药物在该适应症做一个较为详尽的对比,首先是实验方案的设计方面:

两个实验最主要的区别是:前者采用了双盲,而后者为开放标签。双盲实验能够提供关于疗效和安全性最可靠、无偏倚的证据;而开放标签实验相对于双盲实验而言,在科学性、严谨性上较差,且较易产生偏倚,在结果解读上需要更谨慎,最好是与其他研究一同辅助验证。

另一点值得关注的是:HARMONi-A实验的OS终点此前在2024年ASCO会议上披露时,为次要终点。而本次2025年SITC大会上,OS则在演示幻灯上被改为关键次要终点。为什么这么做?在原先实验设计的方案中,将次要终点改为关键次要终点是可行的吗?

将“次要终点”提升为“关键次要终点”,不是文字游戏,而是具备以下重大意义:

1. 强调终点的临床重要性并指导统计:在肿瘤学中,OS被视为评估药物临床获益的最可靠、最客观的终点,其改善代表患者实实在在获得了生存获益。而将探索性的“次要终点”提升为确证性的“关键次要终点”,意味着研究团队意图对OS进行正式的统计检验,并希望其结果能够成为支持药物疗效的确证性证据。

2.为有序的统计推断和注册申报铺平道路:考虑到本次HARMONi-A的实验结果同步在全球HARMONi的实验中,本次关键次要终点的改动符合逻辑。尤其是在新药申请中,如果一个关键次要终点(OS)在统计层级中成功,它将成为注册资料中极其有力的证据。

中途更改实验方案是可行的吗?

答案是:可以,但必须遵循严格的规定和程序,并且越早进行越好。这种修改不能是事后的临时起意,即在看到数据后才决定将哪个终点“升级”,必须通过正式的流程来完成。具体而言,药企必须发起一项正式的临床实验方案修正。其次最关键的是,该修改必须在最终数据锁定和任何正式统计分析开始之前完成。考虑到本次OS分析是最终和唯一的OS统计分析,可以作出合理推断:

1.该修改在研究进行期间(数据分析前)通过正式的方案修正案完成的。

2.研究团队预见了OS的结果的重要性,并且做好了一定的统计规划。

我们需要追溯的即为公司是否有在SITC大会前提起一项正式的临床修正案。

而在人口学及基线对比中:

总体看,两个实验的大部分基线特征大致一致。主要区别体现在:

1. HARMONi-A实验中男性入组患者比例高于OptiTROP-Lung04(47.8%vs35.1%)。

2. 前者入组患者有≥3处远处转移的患者比例低于后者(46%vs68.1%)。

3. 既往三代TKI使用率为86.3%vs94.7%。

接下来是效应指标的对比:

具体数值差异为:

PFS结果:HR=0.46 vs 0.49,依沃西单抗略优。(值得注意的是:在不同临床研究中,由于纳入患者基线特征存在差异,单纯对比不同研究间的中位生存时间长短意义不大;相比之下,HR值更具可比性,适合跨研究对比)

PFS亚组结果(基于基线的分析,我们对比以下几个亚组):男性患者:HR=0.41 vs 0.53,依沃西组略优;≥3处转移:HR=0.70 vs NA;既往三代TKI使用:无具体披露。

OS结果:HR=0.74 vs 0.60,数据层面芦康沙妥珠单抗(sac-TMT)更优。

ORR结果:绝对值看,sac-TMT更优。但从两研究的RR值来看,实际没有太大出入。

接下来对比安全性(与PFS分析类似,跨研究对比最好使用相对指标):

总体而言,伊沃西单抗联合化疗在总体不良反应及常见≥3级不良事件上与芦康沙妥珠单抗单药治疗差别不大。但AK112+化疗在严重不良事件发生率(RR=1.79 vs RR=0.51)及导致停药的TRAEs上(RR=1.81 vs RR=0),安全性低于SKB264单药。

在具体的≥3级的TRAE疾病谱中(≥5%),两者总体区别不大。但在血小板减少(RR=1.53 vs RR=0.13)、淋巴细胞减少(RR=2.19 vs RR=0.84)方面,AK112联合化疗的安全性的表现不如SKB264单药突出。

上图是根据两实验提供的演示文稿中的数据所作的生存曲线叠加图,由此我们可以看出sac-TMT单药在EGFRm NSCLC适应症上的疗效优于依沃西+化疗组。但值得注意的是,在OS的对比中,OptiTROP-Lung04对照化疗组的生存曲线高于HARMONi-A组中的化疗组生存曲线。我个人的看法是:由于OptiTROP实验为开放标签,对照组近20%的患者交叉用药,导致生存曲线结果偏乐观,也侧面反映了该实验设计上欠缺一定严谨性。

根据上述临床实验的分析和对比,我们总结出以下药物的效应指标:

上述指标协同衡量药物疗效、安全性,但表格中并无涉及P值,也未涉及临床统计显著性。由此,我们自然会思考:P值与临床实验统计学显著性之间的关系是什么?

在多领域科学数据分析中,“P < 0.05”是假设检验的核心判断标准,用于界定结果是否具备统计学意义。而要完整把握其内涵,需深入厘清它与显著性水平α的内在关联。

P值的本质定义是:当原假设完全成立时,观测到当前试验数据(或更极端结果)的概率。它反映了现有数据与原假设的契合度——P值越小,意味着在“原假设为真”的前提下,当前数据越反常、越难出现,进而为质疑原假设的合理性提供了更强的依据。

临床案例1:降压药A与B的头对头有效性试验

试验设计:对比全新降压药A与经典药物B的降压效果,原假设H₀设定为“A药降压效果≤B药”(即两药效果无差异或A药更差)。

试验结果A组平均收缩压较B组多降低5mmHg,P值=0.04。

P值解读若原假设成立(A、B两药实际效果完全一致),仅因随机抽样波动(偶然因素),观察到“A药多降5mmHg及以上”这一结果的概率仅为4%

结论:4%的概率属于小概率事件,提示现有数据与“两药效果一致”的原假设兼容性较低。因此,我们有充分证据拒绝H₀,倾向于认为A药降压效果可能优于B药,但需明确:该结论为“基于数据的合理推断”,而非“绝对证明”。

既然P值用于量化证据对原假设的质疑强度,为何0.05会成为被广泛认可的判断阈值,而非0.01、0.1等其他数值?核心原因在于这是人为设定的风险管控标准——这正是显著性水平α的核心作用。α是研究者在开展统计检验前预先划定的“风险门槛”,明确了其愿意承受的“错误否定真实原假设”(即第一类错误,也称假阳性)的最大概率上限。

α的本质是研究者预先明确的风险容忍边界:若设定α=0.05,即表示研究者最多愿意承担5%的犯错概率——当原假设H₀实际为真(也就是两种干预/现象间本无真实效果差异)时,却因样本数据的偶然波动,错误得出“H₀不成立”的结论(即误判存在实际不存在的效应)。而选择α=0.05是一种历史沿革下的社会共识和权衡。

那么是否意味着只要P<0.05,就代表药物具备临床价值呢?

其实不一定,需要结合效应指标来看,让我们再看一个案例:

临床案例2:被P值“扼杀”的抗癌新药

试验设计:对比抗癌新药D与标准治疗方案的总生存期(OS)。原假设H₀设定为“D药OS ≤ 标准治疗OS”。

试验结果: D药组中位OS较标准治疗延长2.3个月,P值=0.07。

P值解读: 若原假设成立(两药生存期无差异),仅因偶然因素而观察到“D药带来2.3个月或更大生存获益”这一结果的概率是7%。

结论: P值未达到0.05的常规显著性标准,因此“未能拒绝H₀”。但这不等于证明了H₀(即证明D药无效)。鉴于2.3个月的生存获益可能对于晚期癌症患者具有重要临床价值,此结果更应解读为 “证据尚不充分” ,提示可能存在样本量不足(把握度差)、研究设计或临床执行等问题,需进一步研究,而非直接判定药物无效。(存在统计学假阴性的可能性)

回顾$康方生物(09926)$ 的HARMONi Global实验的P值及后续在2025SITC大会上发布的OS数据,也大致可以得出该数值为假阴性的结论。值得注意的是,当AK112在两年前开展相关针对EGFRm NSCLC适应症的临床实验时,当时的SOC仍是化疗或化免联合,尚未出现ADC、EGFR/c-Met双抗、双抗ADC等新型药物。而最终的实验结果大家也有目共睹:AK112+化疗在后线患者的总生存期上延长了近3个月时间。

虽然在药效方面,AK112+化疗相比SKB264有所逊色,但无论先使用哪款药物,大部分患者都将在一年内疾病进展。这也意味着患者必然经历序贯治疗。而从药物使用的经济性方面进行考量,ADC在尚未进入医保的用药成本将显著高于AK112,更遑论进口的强生EGFR/c-Met双抗了。AK112的可及性及经济性在此更胜一筹。我个人认为,可负担的药物不仅利于中国的患者,也有利于世界范围内患有该疾病的人群,我也相信这一点会在美国FDA作出是否获批药物的决定中获得妥善的考量。

@雪球创作者中心 #雪球星计划# $科伦博泰生物-B(06990)$