新一代多任务学习模型问世:用 idopNet 解锁复杂系统非线性交互与涌现特性
2026-05-21

图1.总体设计、输入、模型与输出
自然界、生命科学与物理世界中的绝大多数过程,均可视为由大量相互作用的组分构成的复杂系统。理解这些系统的内部结构与运行机制,一直是科学研究的核心挑战之一。网络工具通过将系统组分抽象为节点、组分间的相互作用抽象为边,为分析复杂系统提供了有力框架。然而,现有网络重建方法普遍存在以下局限:相关性网络无法识别因果关系;贝叶斯网络难以刻画相互作用的方向与强度;基于常微分方程(ODE)的方法大多只能描述线性相互作用,对非线性动力学刻画能力不足。此外,当前大量方法通常采用“逐变量独立建模”的策略,即分别对每个节点建立局部方程,忽略了网络整体结构中的耦合依赖与全局约束,从而限制了模型在复杂系统中的整体推断能力与稳定性。
日前,这一长期挑战取得了突破性进展。北京雁栖湖应用数学研究院(BIMSA)邬荣领研究员团队在国际著名期刊《Communications Physics》在线发表了题为“Multi-task Learning of Complex Networks via Nonlinear Ordinary Differential Equations” 最新研究成果。团队提出了一套全新的理论框架与计算方法,构建了全新基于多任务学习的idopNet(信息丰富、动态、全方位、个性化网络),能够同时捕捉相互作用的双向性、符号(促进/抑制)、强度及其随时空的动态变化,实现了多项突破。论文第一作者为助理研究员董昂,论文共同第一作者为法昌健、李智凡;丘成桐教授对该统计模型的数学理论提出具体指导意见,夯实了该模型的理论基础。

图2. 耦合ODE系统方程(A),系统状态变量的时序演化(B)及复杂网络互作拓扑结构(C)

图3. 多任务设计示意图
积分形式多任务学习(MTL)框架,实现双稀疏联合变量选择
研究将演化博弈论与生态位理论融入统一框架,提出了非线性混合常微分方程(nMODEs)系统。该系统将任意变量的动态变化分解为两个核心分量:
- 独立分量:反映变量自身的内在调控能力(自调节);
- 依赖分量:反映其他变量对该变量的外在影响(互调节)。
通过将独立分量的估计值编码为网络节点、依赖分量的估计值编码为网络边,可以构建idopNet。以前普遍对每个变量独立进行变量选择(即网络边的重构),忽视了变量间的相互依赖。本研究将多任务学习与 nMODE 矩阵表示相结合,提出了一种同时对所有变量进行联合变量选择的新框架。该框架在以下两个层面上施加双重稀疏约束:
- 图级稀疏性:仅保留少量真实存在的调控边;
- 特征级稀疏性:对每条边仅保留少数关键非线性基函数。
通过引入自适应双稀疏迭代硬阈值算法(ADSIHT),研究在变量选择精度和假正率控制方面均显著优于 Lasso、稀疏组 Lasso 等传统方法,以及 SINDy、dynGENIE3 等主流网络推断工具。同时,该研究采用 ODE 的积分形式构建回归方程,避免了直接对噪声数据求导所带来的误差放大问题。
模型的理论保证
研究从严格的数学角度建立了模型的理论性质,证明了估计量的变量选择一致性。在合理的平滑性、可加 ODE 结构、设计矩阵非退化性及最小信号强度等假设下,ADSIHT 估计量能以最优速率恢复真实网络结构,且误发现的调控关系数量相对于真实调控边总数可忽略不计。在一个20节点稀疏网络的蒙特卡洛模拟实验(不同信噪比水平,SNR=1至20,每场景重复50次),主要结果如下:
- 多任务学习在所有信噪比水平下均显著优于单任务变量选择,真正率(TPR)更高,假阳性率(FPR)更低,MCC(马修斯相关系数)更高;
- 硬阈值算法有效消除弱效应,确保网络稀疏性,避免了 Lasso 类方法因保留大量微小效应而引入过多伪边的问题;
- 在100节点系统的单次推断中,算法在标准平台上约90分钟内完成,具备一定的可扩展性。

图4. 模拟实验显示单任务与多任务设计(A),积分与微分形式(B),不同求解器(C,D)下,提出的方法具有最好的MCC值
疟原虫基因调控网络的重建与新发现
研究团队将多任务 idopNet 方法应用于恶性疟原虫(Plasmodium falciparum)转录组数据,分析了1株虫株(D6)在环形体、滋养体、裂殖体三个发育阶段中5163个基因的表达动态。在利用功能聚类将5163个基因划分为16个功能模块后,重建了模块间的调控 网络。模块1、11和16被识别为调控枢纽(hub),在全系统调控协调中发挥核心作用。
- 阶段特异性的转录精准调控:核心枢纽(如模块11)在不同发育阶段对管家功能实施动态控制,通过在环形体期强烈正调控核酸合成(模块3、14)、在裂殖体期精准解除对DNA复制机器(模块4、5)的抑制,确保了关键功能模块的适时表达与回归。
- 抗原变异的错时免疫逃逸策略:富集于细胞粘附和抗原变异功能的模块7与模块10受到不同枢纽的差异驱动,导致两者的表达峰值分别错开在环形体期和裂殖体期,通过这种精妙的错时表达策略,有效避免了宿主免疫系统的同步识别与清除。
- AP2-G表观遗传网络与有性承诺机制:在基因水平重建了由AP2-G、GDV1、HP1和HDA2构成的动态网络,首次揭示了 HP1 与 HDA2 间未知的调控关系;同时阐明了 GDV1 对 AP2-G 的时序双向调控与持续负向反馈,不仅从分子网络视角合理解释了体外培养株难以进入有性生殖阶段的现象,也为抗疟靶点开发提供了新线索。

图5. 模块间网络(A),模块间效应曲线拆解(B),模块11对其他模块的影响(C)与模块16对其他模块的影响(D)
本研究提出的多任务 idopNet 框架,为复杂系统的网络推断提供了一套兼具统计严谨性、生物可解释性和计算可扩展性的新方法。该框架不仅适用于基因调控网络,还可广泛应用于肠道微生物组、土壤微生物组、肿瘤微环境及药物基因组学等复杂生物系统的研究。研究团队指出,未来工作将进一步拓展模型以纳入高阶相互作用(HOIs),探索包括张量方法与乘性基展开以捕捉更复杂的调控模式,并在更大规模的生物数据集上推进方法的验证与应用。本研究数据已公开,疟疾数据来源于 doi:10.1126/science.aba4357,模拟代码已上传至 https://github.com/ChangjianFa/MTODE。
原论文链接: