my photo

吕凯风 Kaifeng Lyu

我将于 2025 年 6 月入职清华大学交叉信息院任助理教授。

我现在是加州大学伯克利分校Simons研究所的一名博士后研究员,参与项目 Modern Paradigms in GeneralizationSpecial Year on Large Language Models and Transformers。我于 2024 年获得普林斯顿大学计算机科学博士学位,师从 Prof. Sanjeev Arora。 本科就读于清华大学姚班,于2019年毕业并取得计算机科学与技术工学学士学位。本科时的学术研究曾由 李建教授 指导。

研究兴趣

我的主要研究方向为 machine learning theory, AI safety/alignment, optimization.

一个好的理论应 “从实践中来,到实践中去”:我们应从现实世界中重要的实际现象或者问题出发,在理论上解释现象或者解决问题,最后返回到实际中去指导实践。我致力于做理论与实验相结合的研究,希望能与我的学生和合作者们一起,为现代机器学习方法夯实基础,让大模型时代的 AI 更加高效、安全、可靠。

下面是一些我目前正在思考或者研究的方向:

  1. Training Dynamics of Neural Networks: 神经网络的训练是极为复杂的,但有哪些普适的规律是我们可以预测的?又有哪些方面是存在相变的,导致模型性能难以预测?更进一步,我们可以预测相变发生的时刻吗?我们的往期工作包括:

    • 理论分析指导分布式训练中的超参数设置 [1], [2], [3]
    • 大模型训练中最佳的 learning rate schedule 到底是什么?[4]
    • Data Mixing 中的相变现象 [5](待放出)
    • Grokking: 为什么神经网络在训练集上的准确度达到 100% 后再训很久,测试集表现有可能会突然大幅提升?[6]
    • Normalization Layer 是怎么帮助神经网络训练的?[7], [8], [9]
    • Implicit Bias of GD: 即使你不给你的网络加正则化,梯度下降算法也会在暗地里帮你加 [10], [11], [12]
  2. Modern Generalization Paradigms: 现在的大模型融合了有监督学习、无监督学习、强化学习等多种范式,在大量数据上训练后能取得惊人的泛化能力。哪些泛化范式在实验或者理论上具有普适性?怎样组合算法、架构和数据可以让模型更好地泛化?这些理解能否指导我们更好地筛选、混合乃至生成数据?我们的往期工作包括:

    • Chain-of-Thought 能提升多少性能,跟模型架构有些什么关系?[13]
    • Weak-to-strong Generalization: 受 GPT-2 监督的 GPT-4 能取得超过 GPT-2 的效果,这在更简单的模型上也会发生吗?[14]
  3. Foundations of AI Safety/Alignment: 我也对 AI 安全与对齐的问题感兴趣。机器学习通常是在优化一个模型在 “平均情况” 下的性能,然而 AI 的安全问题会在极端情况下暴露出来。在极端情况下模型犯错的根本原因是什么?目前各类 AI 对齐方法的局限性在哪里,存在哪些无法完全规避的安全隐患?长远来看,是否能够像密码学那样,找到一种系统性的方法,一劳永逸地解决一大类 AI 安全问题?我们的往期工作包括:

    • 目前基于 RLHF 的对齐是非常浅层次的对齐,浅到在安全方面的区别往往只集中在前几个词上 [15]
    • 微调一个对齐好的模型可能会使其安全性退化,但可以对数据格式进行简单调整来缓解问题 [16]
    • 神经网络不具备对抗鲁棒性,理论上是为什么?[17], [18]

an image showing the black box of deep learning
1. 名额

我们组正在招收 2026 年秋季入学的博士生,根据情况会招录1-2个博士生。

我们组主要招收直博生。但如果你的研究兴趣与我们组非常契合,且已经做过高度相关的科研,我也会考虑招收普博生。

2. 联系方式

欢迎感兴趣的同学与我邮件联系!请一并附上个人简历和成绩单。

我一周会集中处理一两次邮件,并尽量保证每封邮件都写一份回复。如果我超过 10 天没有回复,有可能是我错过了你的邮件,欢迎再次联系。若回邮件速度较慢,还请谅解。

同时,请关注交叉信息研究院关于夏令营的信息(去年的报名网站)。

3. 对你的期待

我们希望你有钻研精神,有志于为现代机器学习方法夯实理论基础。

有人会说,目前深度学习中的理论尚不成熟。而我会觉得,这是因为面对神经网络这类复杂系统,做好理论不仅需要善用数学工具,还要 “挽起袖子” 做实验,去观察真正的实验现象。但要同时做好理论和实验,实在不是件容易的事。

我们非常需要复合型的人才来从事这项事业。希望你具有如下背景之一

  1. 具有扎实的数学基础,喜欢数学,对深度学习有深入的了解(至少亲手训过一些常见的模型),愿意在博士期间做理论研究,辅以实验;
  2. 具有出色的编程能力,做过深度学习相关的研究,愿意在博士期间基于实验探寻本质,辅以理论。

我们会优先考虑具备相关经验的同学,包括但不限于以下情况:

  • 有相关科研项目经验,尤其是已发表论文的同学将得到优先考虑;
  • 有信息学、数学、物理等相关竞赛获奖经历的同学将得到优先考虑;
  • 修读过相关课程并取得优异成绩的同学将得到优先考虑,例如优化理论、机器学习理论、深度学习或大模型相关课程等。
an image showing the black box of deep learning

会议论文

A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules
  • Kairong Luo
  • Haodong Wen
  • Shengding Hu
  • Zhenbo Sun
  • Maosong Sun
  • Zhiyuan Liu
  • Kaifeng Lyu
  • Wenguang Chen
RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval
  • Kaiyue Wen*
  • Xingyu Dang*
  • Kaifeng Lyu
Safety Alignment Should Be Made More Than Just a Few Tokens Deep
  • Xiangyu Qi
  • Ashwinee Panda
  • Kaifeng Lyu
  • Xiao Ma
  • Subhrajit Roy
  • Ahmad Beirami
  • Prateek Mittal
  • Peter Henderson
Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks
  • Binghui Li*
  • Zhixuan Pan*
  • Kaifeng Lyu
  • Jian Li
Efficient Stagewise Pretraining via Progressive Subnetworks
  • Abhishek Panigrahi*
  • Nikunj Saunshi*
  • Kaifeng Lyu
  • Sobhan Miryoosefi
  • Sashank Reddi
  • Satyen Kale
  • Sanjiv Kumar
Towards Understanding Text Hallucination of Diffusion Models via Local Generation Bias
  • Rui Lu*
  • Runzhe Wang*
  • Kaifeng Lyu
  • Xitai Jiang
  • Gao Huang
  • Mengdi Wang
Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates
  • Kaifeng Lyu*
  • Haoyu Zhao*
  • Xinran Gu*
  • Dingli Yu
  • Anirudh Goyal
  • Sanjeev Arora
A Quadratic Synchronization Rule for Distributed Deep Learning
  • Xinran Gu*
  • Kaifeng Lyu*
  • Sanjeev Arora
  • Jingzhao Zhang
  • Longbo Huang
Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking
  • Kaifeng Lyu*
  • Jikai Jin*
  • Zhiyuan Li
  • Simon S. Du
  • Jason D. Lee
  • Wei Hu
DistillSpec: Improving Speculative Decoding via Knowledge Distillation
  • Yongchao Zhou
  • Kaifeng Lyu
  • Ankit Singh Rawat
  • Aditya Krishna Menon
  • Afshin Rostamizadeh
  • Sanjiv Kumar
  • Jean-François Kagy
  • Rishabh Agarwal
The Marginal Value of Momentum for Small Learning Rate SGD
  • Runzhe Wang
  • Sadhika Malladi
  • Tianhao Wang
  • Kaifeng Lyu
  • Zhiyuan Li
Understanding incremental learning of gradient descent: A fine-grained analysis of matrix sensing
  • Jikai Jin
  • Zhiyuan Li
  • Kaifeng Lyu
  • Simon S. Du
  • Jason D. Lee
Why (and When) does Local SGD Generalize Better than SGD?
  • Xinran Gu*
  • Kaifeng Lyu*
  • Longbo Huang
  • Sanjeev Arora
Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction
  • Kaifeng Lyu
  • Zhiyuan Li
  • Sanjeev Arora
On the SDEs and Scaling Rules for Adaptive Gradient Algorithms
  • Sadhika Malladi*
  • Kaifeng Lyu*
  • Abhishek Panigrahi
  • Sanjeev Arora
New Definitions and Evaluations for Saliency Methods: Staying Intrinsic, Complete and Sound
  • Arushi Gupta*
  • Nikunj Saunshi*
  • Dingli Yu*
  • Kaifeng Lyu
  • Sanjeev Arora
Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity Bias
  • Kaifeng Lyu*
  • Zhiyuan Li*
  • Runzhe Wang*
  • Sanjeev Arora
Towards Resolving the Implicit Bias of Gradient Descent for Matrix Factorization: Greedy Low-Rank Learning
  • Zhiyuan Li
  • Yuping Luo
  • Kaifeng Lyu
(按字母序排序)
Reconciling Modern Deep Learning with Traditional Optimization Analyses: The Intrinsic Learning Rate
  • Zhiyuan Li*
  • Kaifeng Lyu*
  • Sanjeev Arora
Gradient Descent Maximizes the Margin of Homogeneous Neural Networks
  • Kaifeng Lyu
  • Jian Li
Theoretical Analysis of Auto Rate-Tuning by Batch Normalization
  • Sanjeev Arora
  • Zhiyuan Li
  • Kaifeng Lyu
(按字母序排序)
Fine-grained complexity meets IP = PSPACE
  • Lijie Chen
  • Shafi Goldwasser
  • Kaifeng Lyu
  • Guy N Rothblum
  • Aviad Rubinstein
(按字母序排序)
Single-Source Bottleneck Path Algorithm Faster than Sorting for Sparse Graphs
  • Ran Duan
  • Kaifeng Lyu
  • Hongxun Wu
  • Yuanhang Xie
(按字母序排序)
Learning gradient descent: Better generalization and longer horizons
  • Kaifeng Lv*
  • Shunhua Jiang*
  • Jian Li
(默认按贡献排序;星号 * 表示贡献相同)
PhD Students:
  • Haodong Wen (incoming)
  • Kexian Tang (incoming)
Master's Student:
  • Rui Chen (incoming)

Professional Services

  • Organizer, NeurIPS 2024 Workshop on Mathematics of Modern Machine Learning (M3L 2024).
  • Organizer, NeurIPS 2023 Workshop on Mathematics of Modern Machine Learning (M3L 2023).
  • Conference Reviewer: ICML (2020-2025), NeurIPS (2020-2023), ICLR (2022-2025), TPAMI, COLT (2020,2025), AAAI (2020), KDD (2022).
  • Journal Reviewer: TMLR, JMLR, TPAMI, AIJ.
  • Organizer, Yao Class Seminar, Tsinghua University (Fall 2019, Fall 2020, Spring 2021).

Universal Online Judge

  • 为了促进信息学竞赛生之间的交流,我曾于 2014 年创办了 Universal Online Judge (UOJ)。
  • UOJ 是一款能够自由测评传统和非传统 OI 题的 OJ。自创办起,UOJ 定期举办比赛,主要由每年的国家集训队成员组织。
  • [链接] [GitHub] [文档]