S. Roy

Blog Post·2024-06-19·5 min read

What Actually Happens to Padding Tokens During LLM Pretraining

Padding wastes GPU compute. Sequence packing eliminates it — but introduces cross-document attention contamination unless you explicitly mask it. Here's what the attention mask actually looks like.

training data systems

Tag: data

What Actually Happens to Padding Tokens During LLM Pretraining