A100 和 H100 租用成本到底差多少,我帮你算清楚

最近公司在评估扩大 AI 训练集群的方案,我被拉进去做了一轮调研。说实话,在这之前我对 GPU 租用这块了解不深,就知道"贵"。但真正把数据摆出来之后,我自己都惊了——A100 和 H100 之间的价格差距,远不是简单的"新款贵一点",背后的逻辑比我想象的复杂得多。

这篇文章把我调研过程中整理的数据和思路都写出来,给同样在纠结这个问题的人参考。

先搞清楚这两块卡到底差在哪

A100 是 NVIDIA Ampere 架构,2020 年发布,分 40GB 和 80GB 两个版本,主要靠 HBM2e 显存。H100 是 Hopper 架构,2022 年底开始大规模商用,同样有 80GB SXM5 和 PCIe 两个版本,用的是 HBM3。

光看参数表可能感受不强烈,但实际跑 AI 训练任务的时候差距很明显。H100 引入了 Transformer Engine,对 FP8 精度的支持让 LLM 训练吞吐量直接翻倍不止。NVLink 4.0 的带宽也从 A100 的 600 GB/s 提升到了 900 GB/s,多卡并行的通信瓶颈小了很多。

简单类比一下:A100 是高速公路,H100 是磁悬浮,跑的东西不一样,速度差距就出来了。

核心规格对比

规格项 A100 80GB SXM4 H100 80GB SXM5
架构 Ampere Hopper
显存类型 HBM2e HBM3
显存带宽 2 TB/s 3.35 TB/s
FP16 算力 312 TFLOPS 989 TFLOPS(含稀疏)
FP8 支持 ✅ Transformer Engine
NVLink 带宽 600 GB/s 900 GB/s
TDP 400W 700W

TDP 这个数字很多人忽略,但对租用成本影响不小,后面会说到。

市面上的租用报价,我整理了一遍

我查了国内外主流云厂商和 GPU 算力平台的公开报价,时间节点是 2024 年底到 2025 年初,价格会有波动,仅供参考。

按小时计费(On-Demand)

目录结构
全文
平台