Publications | Kaiyue Wen

2025

AoS

Residual permutation test for regression coefficient testing

Kaiyue Wen, Tengyao Wang, and Yuhao Wang

2025

DOI arXiv
ICLR arXiv

Fantastic Pretraining Optimizers and Where to Find Them

Kaiyue Wen, David Hall, Tengyu Ma, and Percy Liang

2025

arXiv
ACL

Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models

Zihan Qiu, Zeyu Huang, Bo Zheng, Kaiyue Wen, Zekun Wang, Rui Men, Ivan Titov, Dayiheng Liu, Jingren Zhou, and Junyang Lin

2025

arXiv
ICLR

From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency

Kaiyue Wen, Huaqing Zhang, Hongzhou Lin, and Jingzhao Zhang

2025

arXiv
NeurIPS

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, and Junyang Lin

2025

arXiv
COLM

Weight Ensembling Improves Reasoning in Language Models

Xingyu Dang, Christina Baek, Kaiyue Wen, Zico Kolter, and Aditi Raghunathan

2025

arXiv
NeurIPS

PaTH Attention: Position Encoding via Accumulating Householder Transformations

Songlin Yang, Yikang Shen, Kaiyue Wen, Shawn Tan, Mayank Mishra, Liliang Ren, Rameswar Panda, and Yoon Kim

2025

arXiv
ICML

Task Generalization With AutoRegressive Compositional Structure: Can Learning From D Tasks Generalize to D^T Tasks?

Amirhesam Abedsoltan, Huaqing Zhang, Kaiyue Wen, Hongzhou Lin, Jingzhao Zhang, and Mikhail Belkin

2025

arXiv

2024

ICLR

Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective

Kaiyue Wen, Zhiyuan Li, Jason Wang, David Hall, Percy Liang, and Tengyu Ma

2024

arXiv
ICLR

RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval

Kaiyue Wen, Xingyu Dang, and Kaifeng Lyu

2024

arXiv

2023

ICLR

Benign Overfitting in Classification: Provably Counter Label Noise with Larger Models

Kaiyue Wen, Jiaye Teng, and Jingzhao Zhang

2023

arXiv
ICLR

How Does Sharpness-Aware Minimization Minimize Sharpness?

Kaiyue Wen, Tengyu Ma, and Zhiyuan Li

2023

arXiv
arXiv

Practically Solving LPN in High Noise Regimes Faster Using Neural Networks

Haozhe Jiang, Kaiyue Wen, and Yilei Chen

2023

arXiv
NeurIPS

Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To Achieve Better Generalization

Kaiyue Wen, Zhiyuan Li, and Tengyu Ma

2023

arXiv
NeurIPS

(Un)interpretability of Transformers: a case study with Dyck grammars

Kaiyue Wen, Yuchen Li, Bingbin Liu, and Andrej Risteski

2023

arXiv

2022

NAACL

On Transferability of Prompt Tuning for Natural Language Processing

Yusheng Su, Xiaozhi Wang, Yujia Qin, Chi-Min Chan, Yankai Lin, Huadong Wang, Kaiyue Wen, Zhiyuan Liu, Peng Li, Juanzi Li, Lei Hou, Maosong Sun, and Jie Zhou

In NAACL, 2022

Abs

This paper discuss how to transfer prompt trained on different tasks and models. I participated in the experiment on predicting transferability using neuron activation.
EMNLP

Finding Skill Neurons in Pre-trained Transformers via Prompt Tuning

Xiaozhi Wang, Kaiyue Wen, Zhengyan Zhang, Lei Hou, Zhiyuan Liu, and Juanzi Li

In EMNLP, 2022

Abs

This paper discuss our discovery of a set of neurons inside pretrained language model that encode skills, meaning that the activations of these neurons, with delta training, or even without any training, can be used to predict some of the downstream tasks. We further prove that these neurons are crucial for downstream delta tuning.