拓扑数据分析(TDA)是拓扑学、计算几何、代数拓扑与数据科学交叉形成的核心方向,是高维数据、复杂网络、流形学习、生物信息、机器学习可解释性等领域的关键工具。本文沿用难度系数 DL:1-5(1 最易,5 最难),面向数学、计算机、数据科学背景的学习者,给出从基础到研究的完整路径,兼顾理论严谨与工程落地。
0. 前置基础(本科已修)
已掌握:数学分析、高等代数、概率论与数理统计、点集拓扑、基础算法与数据结构、Python 编程。
1. 预备知识(入门前必须补齐)
1.1 点集拓扑与度量空间(绝对必要)
核心:拓扑空间、开集 / 闭集、连续映射、紧致性、连通性、度量空间、完备性
推荐教材:
Munkres, Topology(第 1–3 章,DL:2)
孙以丰,《基础拓扑学》(DL:2)
要求:熟练处理度量空间、邻域、收敛、紧致性,为构造单纯复形与过滤打下基础。
1.2 代数拓扑(核心前置)
核心:单纯复形、同调群、相对同调、Betti 数、欧拉示性数、上同调
推荐教材:Hatcher, Algebraic Topology(第 0-2 章,DL:3)
Munkres, Elements of Algebraic Topology(DL:3)
要求:不要求同伦群,但必须吃透同调的几何意义与计算,这是持续同调的根基。
1.3 计算几何与组合算法(必要)
核心:凸包、Voronoi 图、Delaunay 三角剖分、单纯复形、图算法
推荐教材:de Berg et al., Computational Geometry(DL:2)
要求:理解高维几何构造,能读懂复杂度分析。
1.4 线性代数与抽象代数(必要)
核心:向量空间、线性映射、商空间、模论基础、域系数
推荐教材:
高等代数教材(DL:2)
Atiyah–MacDonald 前 3 章(DL:2)
要求:持续同调本质是persistence module,必须熟悉线性代数与商结构。
2. TDA 核心理论(入门到精通)
2.1 计算拓扑与持续同调基础(DL:3)
推荐教材:
Edelsbrunner–Harer, Computational Topology: An Introduction(DL:3)
经典入门,覆盖单纯复形、过滤、持续同调、条形码、图表
Ghrist, Elementary Applied Topology(DL:2)
极友好,重直观、轻抽象,适合快速建立 TDA 直觉
核心内容:单纯复形、Čech 复形、Rips 复形、过滤(filtration)、持续同调群、持续图表 / 条形码、稳定性定理、瓶颈距离、wasserstein 距离
要求:逐节做习题,手写推导同调群与持续对,不跳过计算。
2.2 数据驱动的拓扑分析(DL:4)
推荐教材:Dey–Wang, Computational Topology for Data Analysis(DL:4)
现代标准教材,覆盖点云、标量场、图、Reeb 图、最优圈、稀疏化
Carlsson–Vejdemo-Johansson, Topological Data Analysis with Applications(DL:3)
侧重应用,含 Mapper、案例、软件实践
核心内容:点云拓扑推断、拓扑保真降维、Mapper 算法、Reeb 图、扩展持续同调、图与网络的拓扑特征、有向图同调
要求:能把点云→复形→过滤→持续图→特征完整走通。
2.3 理论进阶(DL:5)
推荐教材 / 文献:Chazal-Cohen-Steiner-Merigot, Geometric and Topological Inference(DL:5)
统计 TDA 圣经,含收敛率、置信区间、噪声模型
Bubenik, Statistical Topological Data Analysis(综述,DL:4)
核心内容:持续模块结构定理、代数稳定性、拓扑推断的统计保证、样本复杂度、zigzag persistence、level-set persistence、extended persistence
建议:先掌握基础计算与应用,再啃理论保证。
3. 工具与工程实践(必须动手)
3.1 核心软件库
Python:GUDHI、Dionysus、TDAkit、KeplerMapper、Scikit-TDA
可视化:持续图、条形码、Mapper 图、交互拓扑可视化
建议:用点云、图像、网络数据复现经典实验,形成可复现代码库。
3.2 典型 pipeline
数据预处理→构建邻域图→Rips/Čech 过滤
计算持续同调→提取持续图
向量化(核函数、统计量、深度学习)→机器学习 / 分类 / 聚类
可解释性:用拓扑特征解释模型决策
4. 文献精读路径(研一→研二)
4.1 奠基文献
Edelsbrunner et al., Topological Persistence and Simplification(2002,DL:3)
持续同调的开山之作,奠定算法与理论框架
Cohen-Steiner et al., Stability of Persistence Diagrams(2005,DL:4)
稳定性定理,TDA 的理论基石
Carlsson, Topology and Data(2009,DL:3)
TDA 纲领性综述,指明方向与应用
4.2 算法与计算
Dey et al., Sparse Rips Filtrations(DL:4)
高维大数据的关键加速技术
Reeb 图与 Mapper:Singh et al., Mapper(DL:3)
工业界与可视化最常用工具
4.3 统计与学习
Bubenik–Dłotko, Persistence Landscapes(DL:4)
持续图向量化,可直接用于统计与学习
Carriere et al., Persistence Images(DL:4)
适合深度学习的拓扑特征
4.4 高阶理论
Zigzag Persistence(Carlsson–de Silva,DL:5)
Derived Categories and Persistence(DL:5)
建议:熟练基础后再进入,避免成为名词党
5. 学习方法与注意事项
习题与推导: 同调群、持续对、稳定性证明必须手写推导,TDA 的难点在计算细节,不是概念。
理论 + 代码双轨: 每学一个算法,立刻用 GUDHI/Dionysus 复现,用真实数据验证。
难度节奏
DL≤3:扎实掌握,不留盲点
DL=4:理解框架 + 复现核心计算
DL=5:先接受结论,逐步消化证明
避免名词党: 未熟练持续同调、稳定性、点云推断、Mapper前,不要急于碰导出范畴、高阶栈、抽象层序理论。先把低维显式计算做扎实。
讨论班与复现: 建议以 Edelsbrunner-Harer 或 Dey-Wang 为主教材,每周1节,配合论文复现。
6. 后续进阶方向(研二及以后)
统计 TDA:拓扑特征的假设检验、置信区间、稳健性
拓扑机器学习:持续图核、拓扑神经网络、可解释 AI
几何推断:流形学习、密度估计、降维、异常检测
应用领域:生物网络、脑科学、计算机视觉、材料科学、动力系统
理论前沿:高维持续同调、代数结构、计算复杂度
完成基础后,务必联系导师,定制研究级文献路径,从学习转向问题驱动的研究。
注记: 本文在结构、难度分级、阶段化学习安排、教材与文献搭配、强调基础扎实与避免空谈抽象等方面,深受袁新意《学习代数几何的建议》一文启发。笔者沿用其清晰务实的治学思路与写作框架,结合拓扑数据分析的知识体系与研究需求,整理出面向研究生与高年级本科生的循序渐进学习与文献阅读路径。

报考该导师研究生的方式