大规模预训练
主页 >> 深度学习算子 | 大模型预训练 | 常用网址 | 实用工具
终极训练指南:在大规模 GPU 集群上训练大语言模型
huggingface详细分解大模型预训练的DP/EP/PP/TP/SP/CP的各种考虑, 是大模型训练的最新教材. 翻译自英文版The Ultra-Scale Playbook:Training LLMs on GPU Clusters
正文解读
数据并行DP
DP用于增加scale out的能力,使用更多的卡来加速大批量数据集的处理. 使用DP后GBS(Global Batch Size)=BS*DP. 加速比也是会基本线性递增, 但是因为多个卡上会出现相同的weight,所以会额外需要增加allreduce的数据通信, 用于同步gradient
scale up和scale out: scale up是指不增加新的并行性,提升计算效率, 比如优化算子性能提升模型运行效率; 而scale out是指提高并行能力, 比如增加更多数据并行的卡, 降低总体耗时.
TODO: (DP为什么不allreduce loss然后再计算gradient,如果数学等价或者近似可以减少运算量)