A100和H100做AI训练到底差多少租用成本怎么选

发布人：管理员发布时间：3小时前阅读量：0

A100和H100我都用过，说说真实体感

先交代背景，我在公司实习这一年，前前后后接触过不少GPU训练任务。最开始用的A100 40G，后来项目升级搞到了H100 80G，中间还混着用过A100 80G。今天不讲那些官方白皮书的理论峰值，就聊聊实际跑任务时候的差距，以及——最现实的问题——租用成本到底怎么选。

直接上表，省得翻来翻去：

参数	A100 40G	A100 80G	H100 SXM
FP16算力	312 TFLOPS	312 TFLOPS	989 TFLOPS
TF32算力	156 TFLOPS	156 TFLOPS	495 TFLOPS
显存	40GB HBM2e	80GB HBM2e	80GB HBM3
显存带宽	1.6 TB/s	2.0 TB/s	3.35 TB/s
NVLink带宽	600 GB/s	600 GB/s	900 GB/s
TDP功耗	250W	300W	700W

看到H100的FP16算力直接是A100的3倍多，第一反应是"离谱"。但实际训练中你不可能吃满理论峰值，真实提升大概在1.5x到2.5x之间，取决于你的模型结构和batch size。

我们组之前做了一轮内部benchmark，跑的是LLaMA-7B的预训练（用的Megatron-LM框架），数据集大小一样，超参一样，就换卡。8卡配置：