my photo

吕凯风 Kaifeng Lyu

我目前在清华大学交叉信息院担任教研系列助理教授。此前,我曾在加州大学伯克利分校Simons计算理论研究所担任博士后研究员。我于 2024 年获得普林斯顿大学计算机科学博士学位,师从 Prof. Sanjeev Arora。 本科期间,我就读于清华大学姚班,于2019年毕业并取得计算机科学与技术工学学士学位。本科时的学术研究曾由 李建教授 指导。

研究兴趣

我的主要研究方向为 machine learning theory, AI safety/alignment, optimization.

招生: 我们组正在招收 2027 年秋季入学的博士生。想清楚自己未来的人生目标是不容易的,但如果恰巧跟我下面的愿景有相同之处,欢迎你与我邮件联系!因为工作繁忙,邮件可能无法一一回复,还请谅解。如果怀疑是我漏看了邮件或者忘记回复了,欢迎无限次重发邮件,我会尽快回复。


一个好的理论应 “从实践中来,到实践中去”:我们应从现实世界中重要的实际现象或者问题出发,在理论上解释现象或者解决问题,最后返回到实际中去指导实践。我致力于做理论与实验相结合的研究,希望能与我的学生和合作者们一起,为现代机器学习方法夯实基础,让大模型时代的 AI 更加科学、高效、可靠。

关于深度学习的理论,我研究了很多年,也有不少自己很喜欢的工作。不过在最近几年里,我越发意识到,如果实验上本来很多细节就没有处理好,或者模型换个环境就不泛化、不安全了,那么无论怎么建设理论,都可能是空中楼阁。这是因为,理论只能证明对的东西

那么实验上到底哪些事情是对的呢?在大模型时代,实验成本日渐高昂。很多实验细节可能都没有来得及总结出规律,就被新的风口推着往前走了。我双手支持 AGI 的快速发展,但同时我也认为,最终被实现的那个 AGI,应当是通过一套严谨的科学方法训练出来的。又或者,初代的 AGI 应该协助我们,去建设真正科学、高效、可靠的下一代 AGI。

因而,我最近的研究其实将 “科学” 这一关键词的优先级提升到了 “理论” 之前:先带着理论视角去审视大模型训练的各个环节,总结出科学规律,然后我们才会有机会将零散的科学规律逐步拼起来,进而去谈更深刻的理论分析。

下面是一些我目前正在思考或者研究的方向:

  1. Science of Large-Scale Training: 大模型训练是极为复杂的,但有哪些普适的规律是我们可以预测的?我们如何让现有的训练过程更加可预测?大语言模型不会是人类所训练的最后一个大模型,有哪些普适规律也许可以迁移到下一次大模型训练中去?我们的往期工作包括:

    • 大模型训练中最佳的 Learning Rate Schedule 到底是什么?[1]
    • 关于在一个训练集上能重复多少个 epoch 而不至于过拟合,正确的 scaling law 是什么?[2]
    • 理论分析指导分布式训练中的超参数设置 [3], [4], [5]
    • Normalization Layer 和 Weight Decay 如何影响模型的训练动力学 [6], [7], [8]
    • 由上面这一系列研究所启发的优化器 Hyperball [9]
    • 对能实现高效推理的模型架构的不断追求,会如何影响长思维链推理的性能?[10]
  2. Principles in Data-Centric ML: 大模型能力的进步,一方面来自于训练规模的不断扩大,另一个重要方面则是数据质量的提升。蒸馏是容易的,不断堆叠工程技巧也是能稳定拿到收益的。但除此之外,我们是否能总结出一些能广泛适用的基本原理,来帮助我们更好地选择、混合和生成数据?

    • 大模型从混合数据中学习到的知识量随模型大小不会线性增长,而是可能呈现出相变现象 [11]
    • 在已知测试分布的情况下,最佳的训练数据分布就是测试分布本身吗?[12], [13]
    • 在预训练阶段,把数据从低质量到高质量喂进模型进行训练,为什么不怎么有效果?[14]
    • 给定一段语料,如何将其重写,才能让大模型在进行下一词预测的训练之后,真正理解并灵活运用语料中的知识?[15]
    • Weak-to-strong Generalization: 用 GPT-2 造数据给 GPT-4 训,却能取得超过 GPT-2 的效果,这在更简单的模型上也会发生吗?[16]
  3. Foundations of AI Safety/Alignment: 我也对 AI 安全与对齐的问题感兴趣。机器学习通常是在优化一个模型在 “平均情况” 下的性能,然而 AI 的安全问题会在极端情况下暴露出来。在极端情况下模型犯错的根本原因是什么?目前各类 AI 对齐方法的局限性在哪里,存在哪些无法完全规避的安全隐患?长远来看,是否能够像密码学那样,找到一种系统性的方法,一劳永逸地解决一大类 AI 安全问题?我们的往期工作包括:

    • 目前基于 RLHF 的对齐是非常浅层次的对齐,浅到在安全方面的区别往往只集中在前几个词上 [17]
    • 微调一个对齐好的模型可能会使其安全性退化,但可以对数据格式进行简单调整来缓解问题 [18]
    • 神经网络不具备对抗鲁棒性,理论上是为什么?[19], [20]

以上提到的往期工作,有一大部分是先从理论视角对神经网络的训练过程进行思考,再以一种理论与实验相结合的方式来得到最终的结论。深度学习背后还有很多我非常想解的纯理论问题,没有在上面一一列出,但我其实非常感兴趣。

会议论文

How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining
  • Kairong Luo
  • Zhenbo Sun
  • Haodong Wen
  • Xinyu Shi
  • Jiarui Cui
  • Chenyi Dang
  • Kaifeng Lyu
  • Wenguang Chen
Oral Presentation (Top 1.2%).
Larger Datasets Can Be Repeated More: A Theoretical Analysis of Multi-Epoch Scaling in Linear Regression
  • Tingkai Yan*
  • Haodong Wen*
  • Binghui Li*
  • Kairong Luo
  • Wenguang Chen
  • Kaifeng Lyu
Also presented as an Oral Presentation at the OPT Workshop, NeurIPS 2025.
Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice
  • Jiachen T. Wang
  • Tong Wu
  • Kaifeng Lyu
  • James Zou
  • Dawn Song
  • Ruoxi Jia
  • Prateek Mittal
Shift is Good: Mismatched Data Mixing Improves Test Performance
  • Marko Medvedev*
  • Kaifeng Lyu*
  • Zhiyuan Li
  • Nathan Srebro
Data Mixing Can Induce Phase Transitions in Knowledge Acquisition
  • Xinran Gu*
  • Kaifeng Lyu*
  • Jiazheng Li
  • Jingzhao Zhang
Spotlight Presentation (Top 3.5%). Oral Presentation at the DATA-FM Workshop, ICLR 2025.
Adam Reduces a Unique Form of Sharpness: Theoretical Insights Near the Minimizer Manifold
  • Xinghan Li*
  • Haodong Wen*
  • Kaifeng Lyu
How Far Are We from Optimal Reasoning Efficiency?
  • Jiaxuan Gao
  • Shu Yan
  • Qixin Tan
  • Lu Yang
  • Shusheng Xu
  • Wei Fu
  • Zhiyu Mei
  • Kaifeng Lyu
  • Yi Wu
Weak-to-Strong Generalization Even in Random Feature Networks, Provably
  • Marko Medvedev*
  • Kaifeng Lyu*
  • Dingli Yu
  • Sanjeev Arora
  • Zhiyuan Li
  • Nathan Srebro
A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules
  • Kairong Luo
  • Haodong Wen
  • Shengding Hu
  • Zhenbo Sun
  • Zhiyuan Liu
  • Maosong Sun
  • Kaifeng Lyu
  • Wenguang Chen
RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval
  • Kaiyue Wen*
  • Xingyu Dang*
  • Kaifeng Lyu
Safety Alignment Should Be Made More Than Just a Few Tokens Deep
  • Xiangyu Qi
  • Ashwinee Panda
  • Kaifeng Lyu
  • Xiao Ma
  • Subhrajit Roy
  • Ahmad Beirami
  • Prateek Mittal
  • Peter Henderson
Oral Presentation (Top 1.8%). Outstanding Paper Award (Top 3/3827=0.08%).
Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks
  • Binghui Li*
  • Zhixuan Pan*
  • Kaifeng Lyu
  • Jian Li
Efficient Stagewise Pretraining via Progressive Subnetworks
  • Abhishek Panigrahi*
  • Nikunj Saunshi*
  • Kaifeng Lyu
  • Sobhan Miryoosefi
  • Sashank Reddi
  • Satyen Kale
  • Sanjiv Kumar
Towards Understanding Text Hallucination of Diffusion Models via Local Generation Bias
  • Rui Lu*
  • Runzhe Wang*
  • Kaifeng Lyu
  • Xitai Jiang
  • Gao Huang
  • Mengdi Wang
Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates
  • Kaifeng Lyu*
  • Haoyu Zhao*
  • Xinran Gu*
  • Dingli Yu
  • Anirudh Goyal
  • Sanjeev Arora
A Quadratic Synchronization Rule for Distributed Deep Learning
  • Xinran Gu*
  • Kaifeng Lyu*
  • Sanjeev Arora
  • Jingzhao Zhang
  • Longbo Huang
Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking
  • Kaifeng Lyu*
  • Jikai Jin*
  • Zhiyuan Li
  • Simon S. Du
  • Jason D. Lee
  • Wei Hu
DistillSpec: Improving Speculative Decoding via Knowledge Distillation
  • Yongchao Zhou
  • Kaifeng Lyu
  • Ankit Singh Rawat
  • Aditya Krishna Menon
  • Afshin Rostamizadeh
  • Sanjiv Kumar
  • Jean-François Kagy
  • Rishabh Agarwal
The Marginal Value of Momentum for Small Learning Rate SGD
  • Runzhe Wang
  • Sadhika Malladi
  • Tianhao Wang
  • Kaifeng Lyu
  • Zhiyuan Li
Understanding incremental learning of gradient descent: A fine-grained analysis of matrix sensing
  • Jikai Jin
  • Zhiyuan Li
  • Kaifeng Lyu
  • Simon S. Du
  • Jason D. Lee
Why (and When) does Local SGD Generalize Better than SGD?
  • Xinran Gu*
  • Kaifeng Lyu*
  • Longbo Huang
  • Sanjeev Arora
Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction
  • Kaifeng Lyu
  • Zhiyuan Li
  • Sanjeev Arora
On the SDEs and Scaling Rules for Adaptive Gradient Algorithms
  • Sadhika Malladi*
  • Kaifeng Lyu*
  • Abhishek Panigrahi
  • Sanjeev Arora
New Definitions and Evaluations for Saliency Methods: Staying Intrinsic, Complete and Sound
  • Arushi Gupta*
  • Nikunj Saunshi*
  • Dingli Yu*
  • Kaifeng Lyu
  • Sanjeev Arora
Oral Presentation (Top 1.9%).
Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity Bias
  • Kaifeng Lyu*
  • Zhiyuan Li*
  • Runzhe Wang*
  • Sanjeev Arora
Towards Resolving the Implicit Bias of Gradient Descent for Matrix Factorization: Greedy Low-Rank Learning
  • Zhiyuan Li
  • Yuping Luo
  • Kaifeng Lyu
(按字母序排序)
Reconciling Modern Deep Learning with Traditional Optimization Analyses: The Intrinsic Learning Rate
  • Zhiyuan Li*
  • Kaifeng Lyu*
  • Sanjeev Arora
Gradient Descent Maximizes the Margin of Homogeneous Neural Networks
  • Kaifeng Lyu
  • Jian Li
Oral Presentation (Top 1.9%).
Theoretical Analysis of Auto Rate-Tuning by Batch Normalization
  • Sanjeev Arora
  • Zhiyuan Li
  • Kaifeng Lyu
(按字母序排序)
Fine-grained complexity meets IP = PSPACE
  • Lijie Chen
  • Shafi Goldwasser
  • Kaifeng Lyu
  • Guy N Rothblum
  • Aviad Rubinstein
(按字母序排序)
Single-Source Bottleneck Path Algorithm Faster than Sorting for Sparse Graphs
  • Ran Duan
  • Kaifeng Lyu
  • Hongxun Wu
  • Yuanhang Xie
(按字母序排序)
Learning gradient descent: Better generalization and longer horizons
  • Kaifeng Lv*
  • Shunhua Jiang*
  • Jian Li
(默认按贡献排序;星号 * 表示贡献相同)
PhD Students:
  • Haodong Wen (2025–present)
  • Kexian Tang (2025–present)
  • Huaijie Wang (2023–present, joined our group in 2026)
  • Jinhan Li (incoming)
  • Tingkai Yan (incoming)
PhD Students in Close Research Collaboration:
  • Kairong Luo (2024–present, advised by Prof. Wenguang Chen)
  • Haofeng Huang (incoming, advised by Prof. Andrew Yao)
Master's Student:
  • Rui Chen (2025–present, co-advised by Prof. Shuran Zheng)
Alumni / Graduating Soon:
  • Xinghan Li (Undergraduate Class of 2026, joining the University of Washington as a PhD student)
  • Yiran Zhang (Undergraduate Class of 2026, joining UC Berkeley as a PhD student)
  • Xingyu Dang (Undergraduate Class of 2025, now PhD student at Princeton)
  • Kaiyue Wen (Undergraduate Class of 2024, now PhD student at Stanford)

讲授课程

  • 清华大学 2026 年春季学期:《计算机与人工智能应用数学》
  • 清华大学 2025 年秋季学期:《从头训练大语言模型:理论与实践》(教评全校前 5%)

助教经历

Professional Services

  • Organizer, NeurIPS 2024 Workshop on Mathematics of Modern Machine Learning (M3L 2024).
  • Organizer, NeurIPS 2023 Workshop on Mathematics of Modern Machine Learning (M3L 2023).
  • Conference Area Chair: NeurIPS (2025), ICLR (2026).
  • Conference Reviewer: ICML (2020-2025), NeurIPS (2020-2023), ICLR (2022-2025), TPAMI, COLT (2020,2025), AAAI (2020), KDD (2022).
  • Journal Reviewer: TMLR, JMLR, TPAMI, AIJ.
  • Organizer, Yao Class Seminar, Tsinghua University (Fall 2019, Fall 2020, Spring 2021).

Universal Online Judge

  • 为了促进信息学竞赛生之间的交流,我曾于 2014 年创办了 Universal Online Judge (UOJ)。
  • UOJ 是一款能够自由测评传统和非传统 OI 题的 OJ。自创办起,UOJ 定期举办比赛,主要由每年的国家集训队成员组织。
  • [链接] [GitHub] [文档]