Suppr超能文献

哈佛AI模型识别123个新罕见病基因:诊断从十年缩至数小时

学术资讯

一个七岁的男孩,从三岁起反复癫痫发作,智力发育明显落后于同龄人。父母带他辗转五家医院,做了十几次各种检查,医生们提出过十几种可能的诊断,但没有一个能完全解释他的症状。全基因组测序结果显示他携带数百个基因变异,但哪一个才是"罪魁祸首"?这是一个需要遗传学家花费数周甚至数月才能回答的问题。

2025年11月24日,哈佛医学院发布的一款名为popEVE的AI模型[1],或许能把这个答案的等待时间从数月缩短至数小时。在约30000例严重发育障碍未确诊患者的回顾性分析中,popEVE帮助约三分之一的患者找到了致病基因——更令人振奋的是,它识别出123个此前从未与这些疾病关联的新基因,其中25个已被其他实验室独立证实[1]

这不是又一个"AI能做什么"的概念验证,而是一个"AI正在做什么"的现实进展。popEVE已经上线供临床医生和研究者使用,西班牙巴塞罗那国家基因组分析中心的一位临床医生报告,该工具已帮助他为数名罕见病患者做出了诊断[1]

当基因组测序遇到"大海捞针"困境

  人类基因组包含约30亿个碱基对,编码约20000个蛋白质。每个人平均携带约400万个基因变异,其中大部分是无害的"乘客",只有极少数是致病的"驾驶员"[2]。对于罕见病患者来说,诊断的核心挑战就是在这数百万个变异中找到那一个或几个真正导致疾病的突变。

  这个"大海捞针"的过程,医学界称之为"诊断奥德赛"(diagnostic odyssey)。数据显示,罕见病患者从症状出现到确诊,平均需要5.6年,期间会咨询5-8名医生,经历2-3次误诊[3]。在美国,这段漫长旅程的经济成本可高达每位患者51.7万美元——包括反复就医、不必要的检查、错误治疗的费用,以及患者和家属的误工损失[4]

  全基因组测序技术的普及,理论上应该加速诊断。但现实是,即使拿到了完整的基因组序列,解读它仍然是一项艰巨的任务。现有的变异预测工具大多针对单个基因进行评分,无法横向比较不同基因上变异的致病性强弱。一个患者可能在基因A上有一个"中等可疑"的变异,在基因B上有另一个"中等可疑"的变异——究竟哪个更值得优先研究?临床医生往往只能依靠经验和直觉。

基因组变异分析流程示意图(来源:Nature Best Practices 2020)

  哈佛医学院系统生物学教授Debora Marks领导的团队,几年前开发了一款名为EVE的AI模型,它利用跨物种的进化信息来预测变异对蛋白功能的影响[5]。EVE的逻辑很简单:如果某个氨基酸位置在数百万年的进化中高度保守——从酵母到果蝇到人类都几乎不变——那么这个位置的突变很可能是有害的。

  但EVE有一个局限:它无法比较不同基因之间的变异。一个在心脏发育关键基因上的"高分"变异,和一个在皮肤色素基因上的"高分"变异,对人体健康的影响显然不可同日而语。临床医生需要的是一个能排出优先级的"总榜单"。

进化数据+人群数据=诊断加速器

  popEVE的"pop"来自"population"(人群),这揭示了它相比EVE的关键创新:在进化信息的基础上,加入了大规模人类群体遗传数据[1]

  该模型整合了三层信息:首先,它使用EVE的跨物种比较来评估变异对蛋白功能的破坏程度;其次,它纳入了大型语言模型学习的蛋白质序列模式,理解氨基酸之间的相互作用;最后,它分析了健康人群中自然存在的遗传变异,推断出哪些基因的功能丧失对人体生理更为致命[1]

  这三层信息的组合,让popEVE能够产生一个跨基因可比的"疾病严重程度评分"。一个患者的全基因组测序结果输入后,popEVE会为每个变异打分,从最可能致病(深紫色)到几乎无害(黄色),生成一个可视化的热图和排序列表。临床医生可以直接从列表顶部开始,优先研究那些最有可能导致疾病的变异。

  研究团队在多个真实数据集上测试了popEVE的性能[1]

  第一,它能准确区分已知的致病变异和良性变异。在ClinVar数据库(记录了超过200万个临床相关变异)的验证中,popEVE的表现优于现有的大多数预测工具。

  第二,它能从健康对照组和严重发育障碍患者中识别出真正的患者。这意味着它不仅能找到"坏"的变异,还能排除那些看起来可疑但其实无害的变异——这对减少假阳性至关重要。

  第三,更令人印象深刻的是,popEVE能预测变异导致的死亡时间——是儿童期还是成年期——以及变异是遗传自父母还是新发生的,即使研究者没有提供父母的基因信息。这种能力来自它对变异严重程度的精准判断:致死性更高的变异通常不会在人群中累积,因此多为新发突变。

123个新基因,三分之一患者获得答案

  真正的考验来自临床应用。研究团队将popEVE应用于约30000名严重发育障碍未确诊患者的基因组数据——这些是"诊断奥德赛"中走到尽头仍未找到答案的案例[1]

  结果显示,popEVE成功为约三分之一的患者指出了可能的致病基因。考虑到这些都是经过标准分析流程仍未确诊的"疑难杂症",这个比例相当可观。

  更重要的发现是那123个新疾病基因。这些基因此前从未被明确与发育障碍关联,但popEVE根据变异评分和临床表型的吻合度,将它们标记为"高度可疑"。论文发表时,其中25个已经被独立的研究团队通过实验或临床观察证实确实导致相应疾病[1]

  论文第一作者Rose Orenbuch,Marks实验室的研究员,这样描述她的兴奋:"我们距离popEVE真正进入日常临床诊断流程又近了一步。尤其让我激动的是,它对那些通过标准方法无法诊断的患者也有帮助——这些正是我们必须跳出已知疾病基因范围去寻找答案的案例。"[1]

  一个典型案例来自巴塞罗那。一名临床医生使用popEVE分析了一位患有严重神经发育障碍儿童的基因组,模型将一个之前被归类为"意义不明变异"(VUS)的突变排到了列表顶部。进一步的文献检索和功能实验验证了这个变异确实是致病的,患儿最终获得了明确诊断。这个诊断不仅结束了家庭的"奥德赛",也指导了后续的遗传咨询——父母得知这是新发突变,再生育时复发风险极低,这给他们带来了巨大的心理宽慰[6]

从"黑箱"到"透明箱"的挑战

  popEVE的成功,也引发了关于AI医学应用的深层次思考。

  首先是可解释性。当popEVE告诉临床医生"基因X上的变异Y是最可疑的",医生需要理解这个结论的依据。好在popEVE并非完全的"黑箱"——它的评分综合了进化保守性、蛋白结构影响、人群频率等多个维度,每个维度都有生物学意义。研究团队正在开发更详细的可视化界面,让临床医生能够看到评分背后的具体证据[1]

  其次是准确性的持续验证。AI模型在训练数据上表现出色,不代表它在真实临床环境中同样可靠。popEVE需要在更多医疗机构、更广泛的患者人群中接受检验。研究团队正与波士顿儿童医院的儿童罕见病协作组织、费城儿童医院的人类遗传学部门、英国的Genomics England以及Wellcome Sanger研究所等机构合作,开展前瞻性临床验证[1]

  第三是伦理边界。popEVE能预测变异的严重程度,包括是否致死、何时致死。这类信息对临床决策至关重要,但也可能被误用——比如在产前诊断中引发伦理争议。Marks教授强调,popEVE的目标是帮助诊断已经出现症状的患者,而非进行预测性筛查:"我们希望这个工具能提高临床医生使用计算模型进行遗传诊断的信心,而不是制造新的焦虑。"[1]

  还有一个现实挑战是数据偏倚。现有的人类基因组数据库以欧洲血统人群为主,非欧洲血统人群代表性不足。这可能导致AI模型在不同人群中表现不一。研究团队特别测试了popEVE是否存在祖源偏倚,结果令人欣慰——它在来自不同遗传背景的患者中表现一致,没有出现对某些人群的系统性误判[1]。这得益于模型依赖的是进化信息和蛋白功能原理,而非单一人群的统计特征。

诊断只是起点

  罕见病领域有一个悖论:超过7000种罕见病中,约95%没有FDA批准的治疗药物[7]。即使popEVE能快速给出诊断,患者仍可能面临"有诊断,无治疗"的困境。

  但诊断的意义远不止于此。首先,它终结了"诊断奥德赛"的折磨——不再有无休止的检查、不再有此路不通的迷茫。一项针对罕见病患者家庭的调查显示,68%的受访者表示,即使没有治疗方法,明确诊断也能显著减轻他们的心理负担[8]

  其次,诊断指导遗传咨询。父母得知孩子的疾病是新发突变还是遗传而来,直接影响他们的生育决策。如果是隐性遗传,下一个孩子有25%的患病风险;如果是新发突变,复发风险则接近普通人群水平。

  第三,诊断聚集患者群体。当一个新疾病基因被识别,全球范围内携带该基因突变的患者可以被联系起来,形成患者组织,推动针对性研究。许多罕见病药物的研发,正是从患者组织的自发努力开始的。

  最后,popEVE识别的新疾病基因本身就是潜在的药物靶点。如果某个基因的功能丧失导致疾病,那么设计增强其功能的药物,或者补偿其缺失的代谢通路,就成为可能的治疗策略。Marks教授指出:"通过精准定位罕见或复杂疾病的遗传起源,popEVE可能为药物发现开辟新的途径。"[1]

AI与遗传学家的"双人舞"

  在popEVE的在线门户网站上,用户可以上传患者的基因组数据,几分钟后收到一个彩色编码的变异列表[1]。但Marks团队反复强调,这个工具不是要取代遗传学家,而是要放大他们的能力。

  "我们的目标是开发一个能对变异按疾病严重程度排序的模型,为临床医生提供一个有优先级的、临床意义明确的基因组视角。"Marks说[1]。popEVE做的是筛选——在数百万个变异中快速找出最值得关注的几十个。但最终的诊断,仍然需要遗传学家结合患者的临床表现、家族史、实验室数据,进行综合判断。

  这种"AI筛选+人类判断"的模式,正在成为精准医疗的标准范式。AI不是万能的,它会犯错——假阳性和假阴性都不可避免。但它能显著提高工作效率,让遗传学家把时间集中在真正需要人类专业知识的地方。

  一个值得期待的进展是,popEVE的评分正在被整合到现有的变异数据库如ProtVar和UniProt中[1]。这意味着全球的科学家和临床医生,在查询任何基因变异时,都能看到popEVE给出的致病性评分——就像查天气预报一样便捷。这种无缝集成,将大大降低工具的使用门槛。

  回到文章开头那个七岁男孩的故事。如果他的基因组数据能被popEVE分析,也许那个隐藏在数百个变异中的"真凶"会被迅速锁定。医生可以省去数月的文献检索和推理,家长可以更早得到答案,孩子可以更早获得针对性的治疗或支持。

  这不是科幻,这是正在发生的现实。当AI从实验室走向诊室,当算法开始影响真实患者的命运,我们正在见证医学的一个历史性转折点——不是AI取代医生,而是AI和医生携手,让那些曾经无解的谜题,逐一露出答案的曙光。


参考文献:

[1] Orenbuch R, et al. New Artificial Intelligence Model Could Speed Rare Disease Diagnosis. Harvard Medical School News, November 24, 2025. https://hms.harvard.edu/news/new-artificial-intelligence-model-could-speed-rare-disease-diagnosis

[2] 1000 Genomes Project Consortium. A global reference for human genetic variation. Nature, 2015.

[3] Diagnostic odyssey in rare disease. Genomics Education Programme Knowledge Hub, 2025. https://www.genomicseducation.hee.nhs.uk/genotes/knowledge-hub/the-diagnostic-odyssey-in-rare-disease/

[4] The Cost of Delayed Diagnosis in Rare Disease: A Health Economic Study. EveryLife Foundation for Rare Diseases, September 2023. https://everylifefoundation.org/delayed-diagnosis-study/

[5] Frazer J, et al. Disease variant prediction with deep generative models of evolutionary data. Nature, 2021.

[6] Harvard and CRG Launch popEVE AI Model for Rare Disease Diagnosis. MLQ.AI News, November 24, 2025. https://mlq.ai/news/harvard-and-crg-launch-popeve-ai-model-for-rare-disease-diagnosis/

[7] Global Commission to End the Diagnostic Odyssey for Children with a Rare Disease. Global Commission Report, May 2024. https://globalrarediseasecommission.com/

[8] Time to diagnosis and determinants of diagnostic delays of people living with a rare disease. Nature European Journal of Human Genetics, May 16, 2024. https://www.nature.com/articles/s41431-024-01604-z

[9] AI learns from the tree of life to support rare disease diagnosis. EurekAlert, November 24, 2025. https://www.eurekalert.org/news-releases/1106854

[10] Burden of Rare Disease Study. EveryLife Foundation for Rare Diseases, 2025. https://everylifefoundation.org/burden-landing/


作者:超能文献团队 | 超能文献

分享

推荐阅读

Article Cover

超加工食品的全球警报:《柳叶刀》揭示人类健康的隐形杀手

学术资讯

覆盖104项研究的综合分析显示,92%的研究证实超加工食品与慢性病相关。这场由跨国食品公司主导的饮食革命,正在成为21世纪最严重的公共卫生威胁之一。

Article Cover

MIT开源BoltzGen:AI设计蛋白质药物,向"不可成药"靶点宣战

学术资讯

MIT团队推出开源AI模型BoltzGen,在26个挑战性靶点上实现纳摩尔级结合亲和力,67%成功率打破蛋白质设计困境,免费商用或颠覆制药行业格局。

Article Cover

CRISPR"隐形"细胞:糖尿病患者6个月不打胰岛素

学术资讯

2024年12月,一名1型糖尿病患者接受了经过CRISPR编辑的供体胰岛细胞移植。六个月后,这些细胞依然在他手臂肌肉里稳定工作,无需任何免疫抑制药物。这是细胞治疗领域的分水岭时刻。

Article Cover

CAR-T 疗法治愈狼疮?癌症疗法转战自身免疫病的突破

学术资讯

2024年NEJM发表重磅研究:德国团队用CAR-T细胞疗法治疗15名重症自身免疫病患者,100%达到缓解。从癌症到狼疮,这场医学革命正在改写千万患者的命运。

Article Cover

FDA批准阿尔茨海默血液检测:$500测试替代$6000 PET扫描

学术资讯

Article Cover

GLP-1s不止减重:从胰岛素到神经保护的“超级激素”

学术资讯

Article Cover

Nature专栏——当科研拨款成为政治筹码:特朗普2.0如何改写美国医学研究版图

学术资讯

025年以来,特朗普政府终止了超过3800项NIH和NSF科研拨款,涉及未支付资金约30亿美元。从哈佛大学22亿美元经费被冻结,到RFK Jr叫停5亿美元mRNA疫苗研究,这场史无前例的科研经费削减风暴正在重塑全球医学生物研究格局

Article Cover

Nature Medicine重磅:一次输注,长期治愈?中国血友病B基因疗法交出亮眼答卷

学术资讯

中国医学科学院血液病医院张磊教授团队与Belief Biomed合作,在《Nature Medicine》发表血友病B基因疗法BBM-H901的I/II及III期临床成果,显示一次输注显著降低出血率,提升凝血因子活性,有望实现长期治愈。