my photo

吕凯风 Kaifeng Lyu

我将于 2025 年秋季入职清华大学交叉信息院任助理教授。现为普林斯顿大学计算机系的博士生,师从 Prof. Sanjeev Arora,将于今年 8 月毕业。

我本科就读于清华大学姚班,于2019年毕业并取得计算机科学与技术工学学士学位。本科时的学术研究曾由 李建教授 指导。

研究兴趣

我的主要研究方向为 machine learning theory, AI safety/alignment, optimization.

我坚信一个好的理论应 “从实践中来,到实践中去”:我们应从现实世界中重要的实际现象或者问题出发,在理论上解释现象或者解决问题,最后返回到实际中去指导实践。基于这一理念,我致力于做理论与实验相结合的研究,为现代机器学习方法夯实基础,让大模型时代的 AI 更加高效、安全、可靠。

下面是一些我最近在关注的具体问题:

  1. Training Dynamics of Neural Networks: 神经网络是如何学习的?如何让大模型的训练更加高效?训练算法、模型架构、训练数据,这三者是如何相互作用并影响模型的性能的?
  2. Modern Paradigms of Generalization in Large Foundation Models: 机器学习成功的关键在于泛化,即模型在训练集之外也能表现良好的能力。传统上理论更侧重于研究有监督学习中的泛化。然而,现代大模型融合了多种有监督和无监督的学习范式,怎样理解其中各种各样的泛化新范式?怎样改进算法、架构和数据来增强大模型的各项能力 (reasoning, retrieval, in-context learning 等等)?
  3. AI Safety/Alignment: 机器学习通常是在优化一个模型在 “平均情况” 下的性能,然而 AI 的安全问题会在极端情况下暴露出来,并随着模型能力的提升而更具危害性。我们需要怎样的新算法、新范式来缓解甚至解决 AI 相关的安全问题?

an image showing the black box of deep learning

我们正在招收 2025 年秋季入学的博士生,根据情况会招录1-2个博士生。

我们希望你有钻研精神,有志于为现代机器学习方法夯实理论基础。观察到深度学习中一系列神秘的现象时,对其怀有好奇心,愿意花时间去学习和研究。我们希望你学习成绩优异,或完成过高质量的科研项目。

我们需要复合型的人才来从事这项事业。面对神经网络这类复杂系统,做好理论不仅需要善用数学工具,还要 “挽起袖子” 做实验,去观察真正的实验现象。正如开普勒发现三定律,不单需要数学,还需要从第谷的恒星数据总结规律。另一方面,光看实验而不总结规律,也会难以触及机器学习的本质。

如果你具有如下背景之一

  1. 具有扎实的数学基础,喜欢数学,对深度学习有基本的了解,愿意在博士期间做理论研究,辅以实验;
  2. 具有出色的编程能力,上过深度学习相关课程或做过相关研究,愿意在博士期间基于实验发现本质,辅以理论。

欢迎感兴趣的同学与我邮件联系!请一并附上个人简历和成绩单。同时,请关注交叉信息研究院关于夏令营的信息(去年的网站)。

an image showing the black box of deep learning

预印本论文

Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates
  • Kaifeng Lyu*
  • Haoyu Zhao*
  • Xinran Gu*
  • Dingli Yu
  • Anirudh Goyal
  • Sanjeev Arora
RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval
  • Kaiyue Wen*
  • Xingyu Dang*
  • Kaifeng Lyu
Efficient Stagewise Pretraining via Progressive Subnetworks
  • Abhishek Panigrahi*
  • Nikunj Saunshi*
  • Kaifeng Lyu
  • Sobhan Miryoosefi
  • Sashank Reddi
  • Satyen Kale
  • Sanjiv Kumar

会议论文

A Quadratic Synchronization Rule for Distributed Deep Learning
  • Xinran Gu*
  • Kaifeng Lyu*
  • Sanjeev Arora
  • Jingzhao Zhang
  • Longbo Huang
Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking
  • Kaifeng Lyu*
  • Jikai Jin*
  • Zhiyuan Li
  • Simon S. Du
  • Jason D. Lee
  • Wei Hu
DistillSpec: Improving Speculative Decoding via Knowledge Distillation
  • Yongchao Zhou
  • Kaifeng Lyu
  • Ankit Singh Rawat
  • Aditya Krishna Menon
  • Afshin Rostamizadeh
  • Sanjiv Kumar
  • Jean-François Kagy
  • Rishabh Agarwal
The marginal value of momentum for small learning rate SGD
  • Runzhe Wang
  • Sadhika Malladi
  • Tianhao Wang
  • Kaifeng Lyu
  • Zhiyuan Li
Understanding incremental learning of gradient descent: A fine-grained analysis of matrix sensing
  • Jikai Jin
  • Zhiyuan Li
  • Kaifeng Lyu
  • Simon S. Du
  • Jason D. Lee
Why (and When) does Local SGD Generalize Better than SGD?
  • Xinran Gu*
  • Kaifeng Lyu*
  • Longbo Huang
  • Sanjeev Arora
Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction
  • Kaifeng Lyu
  • Zhiyuan Li
  • Sanjeev Arora
On the SDEs and Scaling Rules for Adaptive Gradient Algorithms
  • Sadhika Malladi*
  • Kaifeng Lyu*
  • Abhishek Panigrahi
  • Sanjeev Arora
New Definitions and Evaluations for Saliency Methods: Staying Intrinsic, Complete and Sound
  • Arushi Gupta*
  • Nikunj Saunshi*
  • Dingli Yu*
  • Kaifeng Lyu
  • Sanjeev Arora
Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity Bias
  • Kaifeng Lyu*
  • Zhiyuan Li*
  • Runzhe Wang*
  • Sanjeev Arora
Towards Resolving the Implicit Bias of Gradient Descent for Matrix Factorization: Greedy Low-Rank Learning
  • Zhiyuan Li
  • Yuping Luo
  • Kaifeng Lyu
(按字母序排序)
Reconciling Modern Deep Learning with Traditional Optimization Analyses: The Intrinsic Learning Rate
  • Zhiyuan Li*
  • Kaifeng Lyu*
  • Sanjeev Arora
Gradient Descent Maximizes the Margin of Homogeneous Neural Networks
  • Kaifeng Lyu
  • Jian Li
Theoretical Analysis of Auto Rate-Tuning by Batch Normalization
  • Sanjeev Arora
  • Zhiyuan Li
  • Kaifeng Lyu
(按字母序排序)
Fine-grained complexity meets IP = PSPACE
  • Lijie Chen
  • Shafi Goldwasser
  • Kaifeng Lyu
  • Guy N Rothblum
  • Aviad Rubinstein
(按字母序排序)
Single-Source Bottleneck Path Algorithm Faster than Sorting for Sparse Graphs
  • Ran Duan
  • Kaifeng Lyu
  • Hongxun Wu
  • Yuanhang Xie
(按字母序排序)
Learning gradient descent: Better generalization and longer horizons
  • Kaifeng Lv*
  • Shunhua Jiang*
  • Jian Li
(默认按贡献排序;星号 * 表示贡献相同)

Professional Services

  • Organizer, NeurIPS 2023 Workshop on Mathematics of Modern Machine Learning (M3L).
  • Conference Reviewer: ICML (2020-2023), NeurIPS (2020-2023), ICLR (2022-2024), TPAMI, COLT (2020), AAAI (2020), KDD (2022).
  • Journal Reviewer: TMLR, JMLR, TPAMI, AIJ.
  • Organizer, Yao Class Seminar, Tsinghua University (Fall 2019, Fall 2020, Spring 2021).

Universal Online Judge

  • 为了促进信息学竞赛生之间的交流,我曾于 2014 年创办了 Universal Online Judge (UOJ)。
  • UOJ 是一款能够自由测评传统和非传统 OI 题的 OJ。自创办起,UOJ 定期举办比赛,主要由每年的国家集训队成员组织。
  • [链接] [GitHub] [文档]