Anew Therapeutics
研究

ImmunoSeq

使用 ImmunoSeq 预测与优化抗体免疫原性

ImmunoSeq

亮点

本研究提出了一种兼具高可解释性与实用性的免疫原性预测方法——ImmunoSeq。在抗药抗体(ADA)相关性评估和人源化分类准确率方面,ImmunoSeq 均优于现有的深度学习模型。此外,它还能准确预测抗体人源化过程中 ADA 风险的降低程度,从而有效指导并实现序列的人源化优化。

概述

免疫原性一直是生物治疗药物开发中的核心瓶颈。预测免疫原性的主要挑战在于,需要精准识别由主要组织相容性复合体(MHC)分子呈递的 T 细胞表位。然而,MHC 系统的多态性极高,且 T 细胞受体(TCR)的识别高度依赖上下文环境,导致准确预测多肽的免疫反应难度极大。现有的预测方法虽种类繁多,但均存在明显的局限性。基于此,我们提出的 ImmunoSeq 方法另辟蹊径,其核心逻辑根植于免疫耐受的生物学原理:即人体免疫系统对自身蛋白质具有天然耐受性,不会诱发 ADA 反应。

方法

ImmunoSeq 的核心在于构建庞大的“自体多肽库”。我们将超过 20,000 条人类蛋白质序列,以及来自 OAS 配对数据集的逾 100 万条健康人类抗体序列,系统性地切割为 k-mer 多肽片段(k=8-12,以匹配 MHC 的主要呈递长度),从而生成了一个包含数百万条免疫学安全多肽的虚拟库。同时,我们利用同样源自 OAS 数据集的 80,000 多条小鼠抗体序列构建了“非自体多肽库”作为负向参照,引入经过进化选择的免疫原性多肽来进行惩罚校准。

在评估候选治疗性抗体时,我们采取相同的方式将其序列切割为 k-mer 多肽,并分别统计正向命中(匹配自体库)与负向命中(匹配非自体库)的数量。系统为每次正向命中计 +1.0 分,每次负向命中计 -0.2 分。将所有命中的累积得分除以多肽总数进行归一化处理,即可得出“全局命中率”。理论上,命中率越高,说明候选序列与人体自身蛋白质的相似度越高,预期的 ADA 风险则越低。

更重要的是,ImmunoSeq 能够通过计算残基级别的命中率,实现对免疫原性贡献的高分辨率解析。具体计算方式为:将包含某一残基的所有 k-mer 多肽得分总和除以多肽总数。得分较低的残基会被精准标记为潜在的“免疫原性热点”,这不仅能帮我们锁定高风险区域,还能直接指导后续的迭代突变设计,以逐步提升序列的整体命中率。

性能

测试表明,ImmunoSeq 的预测结果与临床 ADA 发生率高度相关,并能精准预测抗体人源化过程中的免疫原性变化。在区分不同物种的人源序列时,其分类准确率与先进的深度学习模型不相上下。

此外,ImmunoSeq 在序列迭代优化中展现出了卓越的实用价值:当模型为了提升整体命中率而生成候选突变时,其推荐的突变集与 25 对人源化抗体的实际实验观察结果高度一致。值得一提的是,模型优先推荐的高顺位突变(例如排名前 5 的突变)与经过实验验证的有益突变实现了高度吻合。

资源

ImmunoSeq 的代码可在 GitHub 上获取。