
亮点
scNext 是一个生成式基础模型,可将静态的单细胞数据转化为具有预测性的时序序列,从而预测细胞演化、发育潜能以及长期的治疗反应。
单细胞测序技术极大地提升了人们分析细胞多样性的能力,但标准数据集只能捕捉到动态生物学过程中的静态细胞状态快照。为突破这一局限,我们推出了 scNext,用于直接从单细胞转录组数据中学习并生成细胞轨迹。
大规模时序细胞轨迹
scNext 的开发始于首个大规模的单细胞时序数据集——scBaseTraj 的构建。通过整合 9000 万个细胞的 RNA velocity、pseudotime 估计和轨迹推断,我们将静态图谱转换为了 4800 万条显式的多步细胞序列。scNext 采用两阶段架构:向量量化变分自编码器 (VQ-VAE) 将高维基因表达离散化为紧凑的隐空间 tokens,随后利用自回归 Transformer 预测这些标记的时序演化。与连续基因空间模型相比,这种离散建模方法显著提高了模型的可扩展性和训练效率。
预测细胞演化与潜能
与沿伪时间轴回顾性排序细胞的传统方法不同,scNext 是一个时序轨迹的生成模型。从单一观测状态出发,模型自回归地生成合理的未来轨迹,有效模拟发育进程。此外,通过量化其预测分布的熵,scNext 可推断出表征细胞可塑性的势能景观。高熵状态对应高发育潜能(如干细胞),而低熵状态则表明谱系定向,从而对分化偏倚进行定量评估。
预测治疗性扰动
scNext 的一项关键应用是预测外部扰动后细胞发育的长期轨迹。实验表明,该模型可以整合药物分子特征,以预测扰动后的状态转移。例如,在用全反式维甲酸 (ATRA) 处理的造血干细胞中,scNext 准确预测了细胞从干性向髓系和树突状细胞谱系的转变。同样,在用拉帕替尼或丁酸钠处理的癌细胞系中,模型准确重现了复杂的下游效应,包括通路抑制和细胞周期阻滞。
通过将单细胞建模重新定义为时序预测问题,scNext 为研究疾病进展以及在计算中模拟治疗干预提供了一种全新的计算范式。