李晓斌

硕士生导师

学历:博士研究生毕业

学位:理学博士学位

办公地点:X30451 Mathematics

性别:男

主要任职:美国数学会《数学评论》评论员

其他任职:德国数学文摘ZbMath评论员

所在单位:数学学院

Try to be a mixed and hybrid mathematician

其他联系方式:

邮编:

通讯/办公地址:

邮箱:

教师博客

当前位置: 中文主页 >> 教师博客

学习拓扑数据分析(TDA)的建议(2026.5 v1)

拓扑数据分析(TDA)是拓扑学、计算几何、代数拓扑与数据科学交叉形成的核心方向,是高维数据、复杂网络、流形学习、生物信息、机器学习可解释性等领域的关键工具。本文沿用难度系数 DL1-51 最易,5 最难),面向数学、计算机、数据科学背景的学习者,给出从基础到研究的完整路径,兼顾理论严谨与工程落地。

 

0. 前置基础(本科已修)

已掌握:数学分析、高等代数、概率论与数理统计、点集拓扑、基础算法与数据结构、Python 编程。

1. 预备知识(入门前必须补齐)

1.1 点集拓扑与度量空间(绝对必要)

核心:拓扑空间、开集 / 闭集、连续映射、紧致性、连通性、度量空间、完备性

推荐教材:

Munkres, Topology(第 13 章,DL2

孙以丰,《基础拓扑学》(DL2

要求:熟练处理度量空间、邻域、收敛、紧致性,为构造单纯复形与过滤打下基础。

1.2 代数拓扑(核心前置)

核心:单纯复形、同调群、相对同调、Betti 数、欧拉示性数、上同调

推荐教材:Hatcher, Algebraic Topology(第 0-2 章,DL3

Munkres, Elements of Algebraic TopologyDL3

要求:不要求同伦群,但必须吃透同调的几何意义与计算,这是持续同调的根基。

1.3 计算几何与组合算法(必要)

核心:凸包、Voronoi 图、Delaunay 三角剖分、单纯复形、图算法

推荐教材:de Berg et al., Computational GeometryDL2

要求:理解高维几何构造,能读懂复杂度分析。

1.4 线性代数与抽象代数(必要)

核心:向量空间、线性映射、商空间、模论基础、域系数

推荐教材:

高等代数教材(DL2

AtiyahMacDonald 3 章(DL2

要求:持续同调本质是persistence module,必须熟悉线性代数与商结构。

2. TDA 核心理论(入门到精通)

2.1 计算拓扑与持续同调基础(DL3

推荐教材:

EdelsbrunnerHarer, Computational Topology: An IntroductionDL3

经典入门,覆盖单纯复形、过滤、持续同调、条形码、图表

Ghrist, Elementary Applied TopologyDL2

极友好,重直观、轻抽象,适合快速建立 TDA 直觉

核心内容:单纯复形、Čech 复形、Rips 复形过滤(filtration)、持续同调群、持续图表 / 条形码稳定性定理、瓶颈距离、wasserstein 距离

要求:逐节做习题,手写推导同调群与持续对,不跳过计算。

2.2 数据驱动的拓扑分析(DL4

推荐教材:DeyWang, Computational Topology for Data AnalysisDL4

现代标准教材,覆盖点云、标量场、图、Reeb 图、最优圈、稀疏化

CarlssonVejdemo-Johansson, Topological Data Analysis with ApplicationsDL3

侧重应用,含 Mapper、案例、软件实践

核心内容:点云拓扑推断、拓扑保真降维Mapper 算法、Reeb 图、扩展持续同调图与网络的拓扑特征、有向图同调

要求:能把点云→复形→过滤→持续图→特征完整走通。

2.3 理论进阶(DL5

推荐教材 / 文献:Chazal-Cohen-Steiner-Merigot, Geometric and Topological InferenceDL5

统计 TDA 圣经,含收敛率、置信区间、噪声模型

Bubenik, Statistical Topological Data Analysis(综述,DL4

核心内容:持续模块结构定理、代数稳定性拓扑推断的统计保证、样本复杂度zigzag persistencelevel-set persistenceextended persistence

建议:先掌握基础计算与应用,再啃理论保证。

3. 工具与工程实践(必须动手)

3.1 核心软件库

PythonGUDHIDionysusTDAkitKeplerMapperScikit-TDA

可视化:持续图、条形码、Mapper 图、交互拓扑可视化

建议:用点云、图像、网络数据复现经典实验,形成可复现代码库。

3.2 典型 pipeline

数据预处理→构建邻域图→Rips/Čech 过滤

计算持续同调→提取持续图

向量化(核函数、统计量、深度学习)→机器学习 / 分类 / 聚类

可解释性:用拓扑特征解释模型决策

4. 文献精读路径(研一→研二)

4.1 奠基文献

Edelsbrunner et al., Topological Persistence and Simplification2002DL3

持续同调的开山之作,奠定算法与理论框架

Cohen-Steiner et al., Stability of Persistence Diagrams2005DL4

稳定性定理,TDA 的理论基石

Carlsson, Topology and Data2009DL3

TDA 纲领性综述,指明方向与应用

4.2 算法与计算

Dey et al., Sparse Rips FiltrationsDL4

高维大数据的关键加速技术

Reeb 图与 MapperSingh et al., MapperDL3

工业界与可视化最常用工具

4.3 统计与学习

BubenikDłotko, Persistence LandscapesDL4

持续图向量化,可直接用于统计与学习

Carriere et al., Persistence ImagesDL4

适合深度学习的拓扑特征

4.4 高阶理论

Zigzag PersistenceCarlssonde SilvaDL5

Derived Categories and PersistenceDL5

建议:熟练基础后再进入,避免成为名词党

5. 学习方法与注意事项

习题与推导: 同调群、持续对、稳定性证明必须手写推导,TDA 的难点在计算细节,不是概念。

理论 + 代码双轨: 每学一个算法,立刻用 GUDHI/Dionysus 复现,用真实数据验证。

难度节奏

DL3:扎实掌握,不留盲点

DL=4:理解框架 + 复现核心计算

DL=5:先接受结论,逐步消化证明

避免名词党: 未熟练持续同调、稳定性、点云推断、Mapper前,不要急于碰导出范畴、高阶栈、抽象层序理论。先把低维显式计算做扎实。

讨论班与复现: 建议以 Edelsbrunner-Harer Dey-Wang 为主教材,每周1节,配合论文复现。

6. 后续进阶方向(研二及以后)

统计 TDA:拓扑特征的假设检验、置信区间、稳健性

拓扑机器学习:持续图核、拓扑神经网络、可解释 AI

几何推断:流形学习、密度估计、降维、异常检测

应用领域:生物网络、脑科学、计算机视觉、材料科学、动力系统

理论前沿:高维持续同调、代数结构、计算复杂度

完成基础后,务必联系导师,定制研究级文献路径,从学习转向问题驱动的研究。

 

注记: 本文在结构、难度分级、阶段化学习安排、教材与文献搭配、强调基础扎实与避免空谈抽象等方面,深受袁新意《学习代数几何的建议》一文启发。笔者沿用其清晰务实的治学思路与写作框架,结合拓扑数据分析的知识体系与研究需求,整理出面向研究生与高年级本科生的循序渐进学习与文献阅读路径。


报考该导师研究生的方式

欢迎你报考李晓斌老师的研究生,报考有以下方式:

1、参加西南交通大学暑期夏令营活动,提交导师意向时,选择李晓斌老师,你的所有申请信息将发送给李晓斌老师,老师看到后将和你取得联系,点击此处参加夏令营活动

2、如果你能获得所在学校的推免生资格,欢迎通过推免方式申请李晓斌老师研究生,可以通过系统的推免生预报名系统提交申请,并选择意向导师为李晓斌老师,老师看到信息后将和你取得联系,点击此处推免生预报名

3、参加全国硕士研究生统一招生考试报考李晓斌老师招收的专业和方向,进入复试后提交导师意向时选择李晓斌老师。

4、如果你有兴趣攻读李晓斌老师博士研究生,可以通过申请考核或者统一招考等方式报考该导师博士研究生。

点击关闭