Mini workshop:生物信息与拓扑数据分析

Organizers

Guoqing Hu , Jingyan Li , Yangyang Ruan

Speakers

Dachang Dang ( Academy of Mathematics and Systems Science , BIMSA-UCAS )

Kangning Dong ( Renmin University of China )

Guoqing Hu ( HIMIS )

Yiyun Liu ( University of Chinese Academy of Sciences )

Cong Shen ( Academy of Mathematics and Systems Science , BIMSA-UCAS )

Hao Wang ( BIMSA-RUC )

Jiaqi Zhai ( Renmin University of China )

Date

16th ~ 16th January, 2026

Location

Weekday	Time	Venue	Online	ID	Password
Wednesday	09:00 - 18:00	A3-4-301	Zoom 16	468 248 1222	BIMSA

Schedule

Time\Date	Jan 16 Fri
09:00-09:45	Guo Qing Hu
09:50-10:20	Jiaqi Zhai
10:35-11:20	Cong Shen
14:00-14:30	Hao Wang
14:45-15:30	Dachang Dang
15:40-16:10	Yiyun Liu
16:25-17:10	Kangning Dong

*All time in this webpage refers to Beijing Time (GMT+8).

Program

16th January, 2026

09:00-09:45 Guoqing Hu

生物数学中基于拓扑特征向量的多尺度研究与应用

随着拓扑学在生物数学领域的应用日益广泛，通过拓扑描述符捕捉生物大分子复杂的空间结构信息已成为蛋白质与DNA研究的核心手段。也给出一些我们在这一方面(基于GLMY、扭结（Knot）及高斯链接积分（mGLI）等拓扑特征向量)的最新研究进展，心得体会和应用实例。研究表明，在EMP数据集的二分类任务中，通过融合BPE与GLMY特征并结合XGBoost算法，模型性能已成功接近甚至超越了大语言模型（LLM）的最高基准。在抗体-抗原相互作用领域，针对CoV_AbDab RBD数据集，通过整合VH、VL及RBD序列信息，并结合非对称协方差自然向量的融合模型，提升了预测精度。此外，拓扑特征在GO多标签分类、CATH多层级结构分类以及菌株边链接图分析中均展现出一定的表征能力。 核心启示： 1. 多尺度表征：结合局部微观结构与整体拓扑特征是提升模型泛化能力的关键。 2. 模型融合：拓扑特征与传统自然向量、机器学习算法（如XGBoost）的深度融合能有效弥补单一特征的局限。 3. 高维信息挖掘：在高维特征空间中，拓扑描述符能捕捉到生物序列中难以察觉的几何约束。 4. 局部信息/整体信息 后续方向： 未来研究将重点转向“多尺度GLMY特征向量”的研发，旨在进一步精细化描述生物大分子的“动态拓扑演变”，为药物设计与蛋白质功能预测提供更强有力的数学工具。

09:50-10:20 Jiaqi Zhai

PHsymm：蛋白质同源复合物对称性预测的深度学习方法

蛋白质通常以复合物的结构形式在生物体中发挥重要的功能。复合物的组装通常呈现对称性，以获得更稳定的架构。因此，研究结构的对称性有助于蛋白质复合物结构的预测。目前，现有的蛋白质结构对称性预测方法很少，且准确性并不高。对此，本文提出了PHsymm单序列模型。本文最大的突破在于，使用了path homology的方法进一步提取蛋白质序列拓扑信息，结合ESM2预训练模型，从序列端到端预测蛋白质同源复合物的对称性。本文首次将path homology的方法应用于蛋白质序列特征的提取，不依赖于结构和MSA信息，并进一步通过实验对比验证了使用path homology提取序列拓扑特征对于深度学习模型训练的有效性。在相同的测试集下，PHsymm在Macro AUC-PR指标下，相较于Seq2symm和QUEEN方法均提升了0.32。在蛋白质结构预测领域，PHsymm方法可以帮助判断蛋白质预测结构的对称性，辅助蛋白质结构的质量评估工作，也可作为化学计量预测判断的重要依据。

10:35-11:20 Cong Shen

几何与拓扑深度学习驱动的药物研发

深度学习模型能够通过挖掘现有数据中潜在的分布规律，预测分子的活性、靶点及代谢性质等关键信息，从而辅助药物研发各阶段的决策。近年来，几何和拓扑深度学习的发展弥补了传统深度学习的诸多不足。因此，如何有效发挥几何和拓扑深度学习在药物研发中的作用，以进一步缩短研发周期、降低研发成本，已成为学术界关注的焦点。本报告旨在讲解如何解构药物分子的表示方法，深度融合多种化学键信息以精确表征药物分子，并结合几何和拓扑不变量（如曲率、Torsion等）进一步提升图神经网络对分子复杂结构的学习能力。最后，通过拓扑神经网络学习原子间的高阶相互作用，构建分子大模型，推动分子表示学习和药物设计的研究。

14:00-14:30 Hao Wang

能量熵向量：一种高效的微生物基因组序列分析与分类

随着基因组测序技术的快速发展，对高效且准确的序列分析方法的需求日益增长。然而，现有方法在处理超长、变长序列以及大规模数据集时仍面临诸多挑战。为此，本文提出了一种新的编码方法——能量熵向量（EEV）。该方法基于信息熵对核苷酸的能量特性进行建模，将任意长度的基因序列编码为固定维度的向量表示。在五个微生物数据集上的实验结果表明，与传统的无比对方法相比，EEV 在凸包分类和物种分类任务中取得了更高的准确率，其中在科水平的分类准确率提升达 15%–30%。在系统发育树构建任务中，EEV 相较于多序列比对方法显著加快了构建速度，同时保持了较高的树质量，实现了快速而准确的系统发育重建。此外，EEV 通过叠加核苷酸能量支持灵活的维度扩展，增强了对复杂基因组序列的表征能力，并有效缓解了高维表示中的稀疏性问题。本研究为大规模基因组分析与进化研究提供了一种高效的基因编码策略。

14:45-15:30 Dachang Dang

面向Hi-C数据的染色质拓扑关联结构域识别

Hi-C技术为研究染色质三维结构提供了重要数据支持，其中拓扑关联结构域（TAD）是染色质空间组织的基本结构与功能单元，对基因转录调控具有重要作用。然而，现有TAD识别方法的结果之间存在显著不一致性，且在低测序深度Hi-C数据中难以准确解析TAD结构，制约了对其生物学功能的系统研究。针对不同方法识别结果差异较大的问题，我们提出了基于边界投票策略的ConsTADs方法，通过整合16 种主流TAD识别算法的结果，系统量化边界可靠性，识别方法间的共识性TAD，并揭示了三类具有不同表观特征和功能作用的边界类型，为理解TAD与染色质状态、基因表达及DNA复制时序之间的关系提供了新视角。其次，针对低测序深度和单细胞Hi-C数据的稀疏性问题，提出了基于图注意力自编码器的TADGATE模型，可在保持或增强拓扑结构的同时对Hi-C交互矩阵进行平滑与填充，从而促进染色质结构域的精准识别。在此基础上，我们探究了染色质区室与TAD的结构关系，解析了TAD内部调控元件的类型与分布规律，分析了不同细胞类型间TAD结构的保守性与差异性，并揭示了单细胞水平下染色质结构域的组织机制。总体而言，这两项研究互为补充，提升了TAD识别的可靠性和适用性，为深入解析染色质三维结构的组织方式及其功能特征提供了系统的计算框架与新的分析视角。

15:40-16:10 Yiyun Liu

基于病毒序列的分类工具VISTA及其应用

公共数据库中病毒基因组序列数量快速增长，亟需一个可扩展、通用且自动化的分类系统，以支持全面的病毒研究。为此，我们开发了一个病毒基因组序列分类的工具VISTA（Virus Sequence-based Taxonomy Assignment），该工具采用了新型的成对序列比较系统和自动化的阈值筛选计算方法，可以客观地选择病毒的各级分类标准。VISTA综合利用了物理化学性质序列、k-mer特征以及机器学习方法，构建了一个稳健的基于距离的分类框架（Zhang et al., GPB, qzae082, 2024）。VISTA的功能类似于广泛使用的PASC（Pairwise Sequence Comparison）工具，但在分类群体划分、阈值划分的客观性、运行速度及适用范围方面的表现更为优越。我们将VISTA成功地应用到了原核病毒与真核病毒的分类上，其中包括了有尾噬菌体纲以及除此之外的39个病毒科，展示了其在应对不同类型病毒分类任务中的可扩展性、稳定性及高准确性。此外，VISTA还应用于679个来源于元基因组数据的未分类原核病毒基因组，识别出了有尾噬菌体纲的46个新的病毒科。VISTA可通过命令行工具和便捷的网页端形式使用，具体参见https://ngdc.cncb.ac.cn/vista。目前，我们正在利用VISTA的分类结果构建多个病毒科的属与种划分金标准，并与国际病毒分类委员会（ICTV）合作积极推动这些标准的采用，首批涵盖的病毒科包括 Arteriviridae、Filoviridae和Dicistroviridae。

16:25-17:10 Kangning Dong

基于图注意力自编码机的空间聚类算法

近年来，空间组学技术的快速发展使研究人员能够在全基因组层面上获取组织切片中特定空间位点的基因表达信息。在空间组学数据分析中，精确识别空间域是解析组织结构的关键步骤。然而，现有方法往往未能充分利用空间位置信息，导致结果易受技术噪声干扰。为此，我们开发了基于图注意力自编码机的空间聚类工具STAGATE、多切片整合算法STAligner及针对空间多组学的整合算法STAMO，该系列工具适用于多种空间转录组技术和不同类型的生物组织，能够有效破译组织的空间亚结构，为大规模空间转录组数据的精准解析提供支持。同时，针对细胞亚类划分的难题，设计了一致聚类算法框架scMagnifier，通过符合生物学先验的基因扰动模拟，提升细胞亚类、空间亚结构分类的稳定性及准确性。