Kaifeng Lyu 吕凯风

I am currently a final-year Ph.D. student in the Computer Science Department at Princeton University and I am very fortunate to be advised by Prof. Sanjeev Arora. I will be joining the Institute for Interdisciplinary Information Sciences (IIIS) at Tsinghua University as a Tenure-Track Assistant Professor in Fall 2025. Before that, I will join the Simons Institute at UC Berkeley as a Research Fellow for the programs of Modern Paradigms in Generalization and Special Year on Large Language Models and Transformers in Aug 2024.

I did my undergraduate at Tsinghua University and received a B.Eng. in Computer Science and Technology in 2019. At Tsinghua, I was a student of Yao Class headed by Prof. Andrew Chi-Chih Yao and I was very fortunate to be advised by Prof. Jian Li.

Email GitHub Google Scholar CV

Preprints

RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval

Kaiyue Wen*
Xingyu Dang*
Kaifeng Lyu

arXiv

Efficient Stagewise Pretraining via Progressive Subnetworks

Abhishek Panigrahi*
Nikunj Saunshi*
Kaifeng Lyu
Sobhan Miryoosefi
Sashank Reddi
Satyen Kale
Sanjiv Kumar

arXiv

Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates

Kaifeng Lyu*
Haoyu Zhao*
Xinran Gu*
Dingli Yu
Anirudh Goyal
Sanjeev Arora

arXiv

Conference Papers

ICLR 2024

A Quadratic Synchronization Rule for Distributed Deep Learning

Xinran Gu*
Kaifeng Lyu*
Sanjeev Arora
Jingzhao Zhang
Longbo Huang

arXiv

ICLR 2024

Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking

Kaifeng Lyu*
Jikai Jin*
Zhiyuan Li
Simon S. Du
Jason D. Lee
Wei Hu

arXiv

ICLR 2024

DistillSpec: Improving Speculative Decoding via Knowledge Distillation

Yongchao Zhou
Kaifeng Lyu
Ankit Singh Rawat
Aditya Krishna Menon
Afshin Rostamizadeh
Sanjiv Kumar
Jean-François Kagy
Rishabh Agarwal

arXiv

ICLR 2024

The marginal value of momentum for small learning rate SGD

Runzhe Wang
Sadhika Malladi
Tianhao Wang
Kaifeng Lyu
Zhiyuan Li

arXiv

ICML 2023

Understanding incremental learning of gradient descent: A fine-grained analysis of matrix sensing

Jikai Jin
Zhiyuan Li
Kaifeng Lyu
Simon S. Du
Jason D. Lee

arXiv

ICLR 2023

Why (and When) does Local SGD Generalize Better than SGD?

Xinran Gu*
Kaifeng Lyu*
Longbo Huang
Sanjeev Arora

arXiv video poster

NeurIPS 2022

Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction

Kaifeng Lyu
Zhiyuan Li
Sanjeev Arora

arXiv video slides poster

NeurIPS 2022

On the SDEs and Scaling Rules for Adaptive Gradient Algorithms

Sadhika Malladi*
Kaifeng Lyu*
Abhishek Panigrahi
Sanjeev Arora

arXiv video

NeurIPS 2022

New Definitions and Evaluations for Saliency Methods: Staying Intrinsic, Complete and Sound

Arushi Gupta*
Nikunj Saunshi*
Dingli Yu*
Kaifeng Lyu
Sanjeev Arora

arXiv video

NeurIPS 2021

Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity Bias

Kaifeng Lyu*
Zhiyuan Li*
Runzhe Wang*
Sanjeev Arora

arXiv video

ICLR 2021

Towards Resolving the Implicit Bias of Gradient Descent for Matrix Factorization: Greedy Low-Rank Learning

Zhiyuan Li
Yuping Luo
Kaifeng Lyu

(alphabetical order)

arXiv video slides

NeurIPS 2020

Reconciling Modern Deep Learning with Traditional Optimization Analyses: The Intrinsic Learning Rate

Zhiyuan Li*
Kaifeng Lyu*
Sanjeev Arora

arXiv video

ICLR 2020

Gradient Descent Maximizes the Margin of Homogeneous Neural Networks

Kaifeng Lyu
Jian Li

arXiv video

ICLR 2019

Theoretical Analysis of Auto Rate-Tuning by Batch Normalization

Sanjeev Arora
Zhiyuan Li
Kaifeng Lyu

(alphabetical order)

arXiv

SODA 2019

Fine-grained complexity meets IP = PSPACE

Lijie Chen
Shafi Goldwasser
Kaifeng Lyu
Guy N Rothblum
Aviad Rubinstein

(alphabetical order)

arXiv

ICALP 2018

Single-Source Bottleneck Path Algorithm Faster than Sorting for Sparse Graphs

Ran Duan
Kaifeng Lyu
Hongxun Wu
Yuanhang Xie

(alphabetical order)

arXiv

ICML 2017

Learning gradient descent: Better generalization and longer horizons

Kaifeng Lv*
Shunhua Jiang*
Jian Li

arXiv

(Contribution order by default; Asterisk * stands for equal contribution.)

Spring 2024. Teaching Assistant for COS324: Introduction to Machine Learning (taught by Prof. Sanjeev Arora & Prof. Elad Hazan), Princeton University.
Fall 2022. Teaching Assistant for COS521: Advanced Algorithm Design (taught by Prof. Matt Weinberg & Prof. Huacheng Yu), Princeton University.
Spring 2021. Teaching Assistant for COS598B: Advanced Topics in Computer Science: Mathematical Understanding of Deep Learning (taught by Prof. Sanjeev Arora), Princeton University.
Spring 2020. Teaching Assistant for Mathematics for Computer Science (taught by Prof. Andrew Chi-Chih Yao), Tsinghua University.
Spring 2019. Teaching Assistant for Distributed Computing (taught by Prof. Wei Chen), Tsinghua University.

Professional Services

Organizer, NeurIPS 2023 Workshop on Mathematics of Modern Machine Learning (M3L).
Conference Reviewer: ICML (2020-2023), NeurIPS (2020-2023), ICLR (2022-2024), TPAMI, COLT (2020), AAAI (2020), KDD (2022).
Journal Reviewer: TMLR, JMLR, TPAMI, AIJ.
Organizer, Yao Class Seminar, Tsinghua University (Fall 2019, Fall 2020, Spring 2021).

Universal Online Judge

I founded the Universal Online Judge (UOJ) in 2014, a popular online judge system in China.
UOJ is capable of testing both traditional and non-traditional programming problems in OI (Olympiad in Informatics). A team of top OI players regularly hosts programming contests on UOJ.
[Link] [GitHub] [Docs]