
白塞病(Behçet's Disease, BD)是一种慢性多系统炎症性疾病,临床表现复杂,包括黏膜皮肤、关节、眼、血管、神经和胃肠道等多个系统的受累。白塞病现有诊断手段主要依赖于临床症状,缺乏特异性,其早期诊断和疾病分层面临准确性和及时性的巨大挑战,迫切需要有效的实验室诊断标志物。
6月23日,中国医学科学院北京协和医学院北京协和医院李永哲、郑文洁团队、中国医学科学院老年医学研究院刘昱东团队、国家蛋白质科学中心·北京于晓波团队合作在《Advanced Science》(IF=14.1)期刊发表了题为“Artificial Intelligence-Driven Proteomics Identifies Plasma Protein Signatures for Diagnosis and Stratification of Behçet's Disease.”的最新研究,利用血浆蛋白质组学技术结合人工智能驱动的机器学习分析,深入剖析了不同严重程度白塞病患者的血浆蛋白质组特征,成功构建了用于白塞病诊断和严重程度分层的模型,为白塞病的精准诊断和治疗提供了新的策略和潜在生物标志物。

研究样本
健康人和不同严重程度(轻度、中度、重度)白塞病患者的血浆样本,包括:
发现队列:160例健康对照、610例白塞病(280例轻度、330例中度或重度)。
验证队列:6例健康对照、25例白塞病(11例轻度、14例中度或重度)。
研究方法
蛋白质组学:数据非依赖性采集质谱(DIA-MS)、定制抗体微阵列。
机器学习:XGBoost算法。
功能分析:基因集富集分析(GSEA)、蛋白互作网络(PPI)分析。
研究亮点
充足的样本量(801例)、独立的验证队列、细致的疾病分层确保研究结果的可靠性、泛化能力和临床应用价值;
血浆蛋白质组学技术结合XGBoost机器学习算法识别关键标志物,首创白塞病精准诊断与分层模型,突破传统诊断局限;
阐明补体系统和凝血级联反应在白塞病发病中的关键角色,揭示免疫炎症反应与疾病严重程度密切相关,为治疗提供新思路。
研究结果
一、白塞病患者与健康对照的深度蛋白质组学特征分析
采用数据非依赖性采集质谱(DIA-MS)和定制抗体微阵列技术对健康对照组与轻度、中度和重度白塞病患者的血浆样本进行蛋白质组学分析,分别鉴定出862、888、893和888种蛋白质。DIA-MS检测的CRP、SAA等急性期蛋白与临床常规检测结果正相关,证实了蛋白质组学平台的可靠性。偏最小二乘判别分析(PLS-DA)显示健康对照组与白塞病组之间存在显著的蛋白质表达差异,轻度与中/重度白塞病组之间存在一定程度的差异,中度与重度白塞病组蛋白质表达谱相似,在蛋白质水平上具有相似的病理特征。

图1 健康对照和白塞病患者血浆样本的蛋白质组学分析
二、基于机器学习的白塞病诊断模型构建
为实现白塞病的精准诊断,对白塞病与健康对照之间的差异蛋白采用XGBoost算法构建诊断模型。将发现队列随机分为训练集(70%)和测试集(30%),使用10折交叉验证进行模型训练和参数调优以评估模型性能,结果显示该模型表现优异,AUC达0.984,准确率达93.5%。关键标志物包括F11(凝血因子XI)、ITIH4(α-2-巨球蛋白家族成员)、SERPINA3(α-1抗胰蛋白酶)等15个蛋白。在独立验证队列中评估模型的诊断性能,该模型表现同样优异,AUC达0.967,准确率达87.1%。

图2 利用机器学习方法从健康对照中识别诊断白塞病患者的潜在生物标志物
三、不同严重程度白塞病患者差异表达蛋白的功能分析
为了深入理解白塞病病理机制,采用单因素方差分析(ANOVA)识别在不同组别中特异性高表达的蛋白质,使用基因本体论(GO)数据库对差异表达蛋白进行功能注释,通过基因集富集分析(GSEA)分析不同严重程度组别中富集的生物学过程:
轻度:20种蛋白质特异性高表达,富集于免疫反应(C1QA、C3)和蛋白激活级联;
中度:36种蛋白质特异性高表达,富集于防御反应(CRP、SAA1)和急性期反应;
重度:56种蛋白质特异性高表达,富集于防御反应(SERPINA3、FCN3)和补体激活(C5、C7)。
进一步分析显示,免疫反应、防御反应、对外部刺激的反应和蛋白水解与疾病严重程度显著相关,且随着疾病严重程度的增加而呈现渐进性上调。这些发现为理解白塞病的病理机制提供了重要的线索。

图3 白塞病严重程度特异性蛋白表达分析
四、基于机器学习的白塞病严重程度分层模型构建
为区分白塞病严重程度为临床治疗方案的制定提供依据,针对在不同组别中特异性高表达的蛋白采用与诊断模型相同的XGBoost算法构建分层模型。该模型在区分健康对照与白塞病、轻度白塞病与其他组(中度/重度白塞病和健康对照)、中度/重度白塞病与其他组(轻度白塞病和健康对照)时表现优异,AUC分别为0.986、0.927和0.897。关键标志物包括TNC(腱糖蛋白C)、F11、ITIH4.2等15个蛋白,涉及细胞外基质和凝血调控。在独立的验证集中,模型的AUC分别为0.960、0.718和0.727。

图4 使用机器学习方法识别与白塞病进展相关的蛋白质组学特征
五、白塞病分层相关的深度血浆蛋白质组学功能注释
为深入分析与白塞病疾病进展相关的病理机制为未来的治疗策略提供理论依据,对白塞病中上调的蛋白质进行基因集富集分析(GSEA),富集的前三大通路为金黄色葡萄球菌感染、血小板激活和补体及凝血级联反应。使用单样本GSEA(ssGSEA)和表达趋势分析分析与白塞病疾病进展相关的通路,发现包括补体和凝血级联反应、抗原处理和呈递以及血小板激活在内的55个通路与疾病进展相关。共有46种蛋白质与疾病严重程度呈正相关,5种蛋白质与疾病严重程度呈负相关。功能注释表明,与严重程度相关的上调蛋白质主要涉及蛋白激活级联反应、补体激活和体液免疫反应。
构建蛋白质-蛋白质互作网络(PPI),识别出C4B为关键节点蛋白,关键补体成分C4B、C5和C8A与BD的高疾病严重程度显著相关。补体C4B通过经典和lectin途径激活补体级联,其过度激活可导致血管内皮损伤和血栓形成。临床前研究显示,补体抑制剂如C5a受体拮抗剂在动物模型中可减轻炎症反应,提示针对C4B的干预可能成为BD治疗的新策略。

图5 与白塞病进展相关的蛋白共表达模式
研究结论
该研究通过整合DIA-MS、抗体芯片和XGBoost算法,构建了首个具有临床应用价值的白塞病AI诊断与分层模型,发现以补体C4B为核心的疾病相关分子网络。该研究不仅为白塞病的早期诊断、疾病分层和精准治疗提供了新的工具和依据,也为自身免疫性疾病的生物标志物发现建立了“血浆蛋白质组学+机器学习”的标准化研究范式,为未来的研究提供了重要基础。
青莲百奥血浆蛋白质组学
青莲百奥针对血浆蛋白质组研究瓶颈,基于“蛋白冠”及Vroman效应,独家推出专利产品低丰度蛋白富集磁珠试剂盒(MagicOmics DMB),搭配自动化样本前处理机器人,极大地优化精简样本前处理流程。针对队列标志物筛选、风险预测、患者分型分析需求,青莲百奥独家推出疾病标志物筛选、预后标志物筛选、分子分型高级分析报告。步骤虽繁必不敢省人工,试剂虽贵必不敢减物力,青莲百奥助您在科研的海洋中乘风破浪。
