零样本神预测 | 虚拟细胞时代简析Perturb Sapiens与 STACK
2026-03-30生物学的一个重大挑战是预测细胞随着时间推移如何在不同状态之间转换,以及外部扰动(如基因敲除)如何破坏这些转换 。目前的计算方法虽然可以预测单细胞扰动反应,但通常局限于静态的细胞环境,无法预测扰动在整个动态细胞轨迹中的连锁反应 。为了填补这一空白,研究团队推出了PerturbGen——一个在超过1亿个单细胞转录组上训练的生成式基础模型 。它能够预测在初始状态下发生的基因扰动如何重塑下游的细胞状态、基因表达程序以及随时间变化的细胞轨迹 。

核心团队:这篇重磅文章的通讯作者团队堪称单细胞与计算生物学领域的“全明星阵容”,包括Wellcome Sanger研究所的Mo Lotfollahi和Muzlifah Haniffa,以及剑桥大学的Berthold Göttgens和Nicola K. Wilson。
主要重点:
-
庞大的预训练数据:模型使用了包含1.07亿个单细胞转录组的数据集进行预训练,涵盖100多种组织和多种疾病状态 。
-
动态轨迹感知:有别于传统静态预测,PerturbGen能够根据“上下文”(中间状态)预测干预措施在发育、分化或疾病进展后期的结果 。
-
三大应用场景的成功验证:在体内免疫挑战(LPS)、人类造血过程以及体外皮肤类器官发育三个全新生成的单细胞数据集中均取得了惊人的预测准确度。
-
预训练:编码器在无条件约束的情况下,通过掩码语言建模(Masked Language Modeling)任务在1.07亿个细胞上学习全局的基因-基因交互关系 。 -
特定阶段解码器训练:利用编码器提取初始细胞(Source)的特征,结合中间时间点的细胞状态作为“上下文”(Context),通过解码器的交叉注意力机制,预测下游目标状态(Target)的基因表达 。
基于ZINB的基因计数预测:为了更好地还原单细胞RNA测序数据中的技术丢失(Dropout)和过度分散问题,模型最终通过零膨胀负二项分布(ZINB)解码器重构基因表达的真实计数 。
二、结论分析
1. PerturbGen实现了对细胞轨迹及基因扰动效应的生成式建模

-
图1详细展示了PerturbGen的工作原理和预训练库构成。
-
PerturbGen通过将实验观察到的离散状态组合成轨迹,不仅能够高保真地生成未观察到时间点的细胞状态,还能模拟初始细胞发生基因敲除/过表达后,其下游轨迹状态将如何改变 。
2. 体内免疫挑战的“先知”:精准预测细胞因子扰动的下游级联反应

* 图2展示了健康志愿者接受脂多糖(LPS)注射后的免疫反应轨迹。图2a展示了在注射后90分钟、6小时和10小时收集血液样本的实验设计 。图2d是实验的核心模拟设计:在计算机中将90分钟时的髓系细胞中的IL1B基因“敲除”,预测其在6小时和10小时的状态 。图2g-j则用外部真实的IL-1β刺激实验数据,证明了模型预测的“敲除效应”与“刺激效应”在通路水平上呈完美的镜像反转 。 * PerturbGen准确捕捉到了IL-1β信号在早期免疫激活中的关键作用。通过虚拟敲除源头的IL1B信号,模型成功预测出下游的细胞因子-干扰素程序和NF-κB信号传导将被显著减弱,这与已知的生物学事实高度吻合
3. 在造血系统中绘制“虚拟扰动地图”,成功模拟罕见单基因血液病

* 图3展示了跨越人类生命周期的造血干细胞图谱,并在其中进行了覆盖5700个基因的大规模虚拟扰动,聚类形成了不同的扰动诱导程序(PIPs) 。
* 图4则将这些PIPs与人类GWAS(全基因组关联分析)数据相结合,并特别展示了图4d-g中模拟单基因罕见病“ETV6相关血小板减少症”的过程,模型预测的抗原呈递通路上调(图4f)与真实患者数据高度一致 。* 在一个涵盖胎儿到老年的庞大造血单细胞图谱中,PerturbGen不仅超越了现有基于调控网络的预测工具(如CellOracle),还能通过聚类虚拟敲除效应发现特定年龄/谱系相关的基因功能模块,并精准再现真实单基因遗传病患者的转录组改变 。
4. 指导类器官走向成熟:精准锁定Wnt激活促进皮肤类器官发育

* 图5展示了研究者利用PerturbGen在皮肤类器官发育第6天进行虚拟基因筛选,最终以FAP基因为靶标,排查出GSK3B(Wnt信号负调控因子)是促进真皮成纤维细胞成熟的关键 。

利用PerturbGen筛选,团队发现并实验验证了在早期激活Wnt信号(抑制GSK3β),可以有效促进体外培养的皮肤类器官中基质细胞的分化,使其分子特征更加逼近体内真实发育的胎儿皮肤组织 。 前面说的这么多,其实STACK才是构建Perturb Sapiens图谱的核心模型,Perturb Sapiens是基于STACK模型能力生成的人类全身细胞扰动反应预测图谱。 简单来说,STACK是一个强大的单细胞基础模型,它通过学习大量人类单细胞数据,掌握了细胞在不同环境下的行为规律。而Perturb Sapiens则是利用STACK的“上下文学习”能力,将已知的免疫细胞扰动反应“翻译”到全身28种组织、40种细胞类型中,预测出约20000个未被实验测量过的“细胞类型-组织-扰动”组合反应结果,形成一个虚拟的全景图谱 。

下面简单介绍下STACK的研究结果:
STACK模型问世:单细胞测序技术使我们得以窥见每个细胞的独特状态,然而数据本身携带着大量技术噪音。现有的AI模型大多孤立分析单个细胞,忽视了细胞所处的群体背景信息,从而丢失了关键的生物学上下文。

研究者开发的STACK模型【图1A】,其核心创新在于分析单个细胞时会“参照”其周围数百个细胞的群体信息,正如通过上下文对话理解一句话的真实含义。这种融合群体智慧的设计思路,使STACK能够更精准地还原每个细胞的真实状态。

研究者在1.49亿个人类细胞的数据规模上完成了STACK模型的训练,模型参数从6900万到6.29亿不等【表3】,赋予其强大的基础生物学理解能力。
嵌入能力超群:
完成训练后的STACK可将每个细胞转换为数学向量用于下游分析。研究者发现,正是这种上下文学习能力,成为模型表现优异的关键所在。

精准的“零样本”预测能力:面对全新数据集时,STACK展现出惊人的适应性。
在【图2D】所示的四个器官数据集中,STACK在预测细胞疾病状态等任务上,不仅超越了所有零样本模型,甚至优于针对特定数据集从头训练的专用模型。即使将细胞按相同类型分组【表4】,STACK依然保持最佳性能。

“一眼”识别复杂扰动:在预测药物、细胞因子等扰动效应时【图2E】,STACK展现出显著优势。在Tahoe和Parse两个大型扰动数据集上,STACK的预测准确率比现有最佳方法高出约100%,能够从细胞群体的细微变化中精准捕捉微弱扰动信号。

卓越的数据整合能力:在【图2F】所示的25个人体组织中,STACK在21个组织的数据整合效果上排名第一,充分证明了其强大的批次效应校正能力【表1】。
细胞提示操控:
研究者设计了一个后训练对齐流程【图3A】,使STACK学会用“细胞提示词”来操控细胞状态:给定一组“提示”细胞和一组“查询”细胞,它能精准预测查询细胞在提示条件下的状态变化。四大类任务【表5】全面考验了STACK的这一核心能力:

跨细胞类型扰动预测【图3C-E】:仅以一种细胞的扰动数据作为“提示”,STACK便能成功预测另一种细胞类型在相同扰动下的反应,其预测效果远超基线模型【表5】

跨数据集预测【图3F】:以一个数据集的扰动细胞为“提示”,预测全新数据集中相同细胞类型的变化,STACK能够精准捕捉关键基因的表达差异。
填补缺失的细胞类型【图3G】:基于一个病人的部分细胞数据,STACK能成功“补全”该病人缺失的其他细胞类型的表达谱。
跨数据集“无中生有”【图3H】:以扰动实验数据为“提示”,预测独立人体细胞图谱中从未实验过的细胞在扰动下的反应,STACK依然表现出色。
⏩ 在总计31项评估中,STACK在28项上排名第一,充分展现了其强大的零样本泛化能力。
首创扰动图谱:
基于STACK的强大生成能力,研究者构建了Perturb Sapiens【图4A】——这是首个覆盖整个人体的虚拟扰动细胞图谱。
研究团队以来自28种组织、40类细胞的Tabula Sapiens数据作为“查询”,以201种药物和细胞因子的扰动数据作为“提示”,成功生成了每一种细胞类型在每一种扰动下的反应谱系。

高度真实的细胞反应模拟:在【图4C】中,干扰素-γ对全身细胞的影响热图显示,STACK不仅精准再现免疫细胞的已知反应,还在未实验过的基质细胞、内皮细胞中,预测出与生物学知识高度一致的炎症信号【图4D-F】。
外部实验验证【图4D-F】:将Perturb Sapiens预测的上皮细胞反应与独立体外实验对比,无论是干扰素-β、白介素-13还是白介素-1β的刺激,STACK的预测都与真实实验结果高度吻合,许多指标甚至超越作为“提示”的原始免疫细胞数据。
⏩ Perturb Sapiens为研究者提供了一个跨越组织和细胞类型的“细胞反应搜索引擎”,可系统探索药物的未知效应,深入理解疾病的复杂机制,为虚拟药物筛选和精准医疗开辟全新道路。
小结
STACK在28/31项零样本评估中超越所有基线模型,Perturb Sapiens成功模拟了细胞类型特异性扰动响应,并经体外实验数据验证。该研究开创了以细胞群体为上下文的单细胞建模新范式,为虚拟细胞图谱构建和药物反应预测提供了通用框架。
