A100和H100我都用过,说说真实体感

先交代背景,我在公司实习这一年,前前后后接触过不少GPU训练任务。最开始用的A100 40G,后来项目升级搞到了H100 80G,中间还混着用过A100 80G。今天不讲那些官方白皮书的理论峰值,就聊聊实际跑任务时候的差距,以及——最现实的问题——租用成本到底怎么选。

先看硬件规格,数据摆出来

直接上表,省得翻来翻去:

参数A100 40GA100 80GH100 SXM
FP16算力312 TFLOPS312 TFLOPS989 TFLOPS
TF32算力156 TFLOPS156 TFLOPS495 TFLOPS
显存40GB HBM2e80GB HBM2e80GB HBM3
显存带宽1.6 TB/s2.0 TB/s3.35 TB/s
NVLink带宽600 GB/s600 GB/s900 GB/s
TDP功耗250W300W700W

看到H100的FP16算力直接是A100的3倍多,第一反应是"离谱"。但实际训练中你不可能吃满理论峰值,真实提升大概在1.5x到2.5x之间,取决于你的模型结构和batch size。

实测跑了几个任务的对比

我们组之前做了一轮内部benchmark,跑的是LLaMA-7B的预训练(用的Megatron-LM框架),数据集大小一样,超参一样,就换卡。8卡配置: