核心目标:通过将大规模模型或海量数据的训练任务拆分到多个计算节点(如GPU/TPU服务器)上并行执行,显著缩短训练时间,解决单设备内存与算力瓶颈。
典型场景:训练 GPT-3 (175B 参数) 需要约 350GB 显存存储模型参数、梯度和优化器状态,远超单张 A100 (80GB) 的容量。
主要挑战:
- 任务分割:如何高效、均衡地切分数据与模型,避免负载不均衡。
- 一致性维护:在并行过程中确保模型参数同步,保证收敛性。
- 通信开销:最小化节点间频繁的数据交换延迟,通信带宽常成为瓶颈。
- 容错管理:应对大规模集群中的节点故障,确保训练连续性。
- 显存管理:优化激活值、梯度的存储与重算策略。
注意:理想的线性加速比很难实现。当 GPU 数量从 1 增加到 N 时,实际加速比通常低于 N,原因包括通信开销、负载不均衡等。