A100 vs H100 租用成本,我帮你算清楚了

最近帮组里做了一次GPU云实例选型,顺手把数据整理出来。网上很多文章只说"H100更贵",但贵多少、贵在哪、什么场景下值,没人细说。我就把我查到的和实际对比的东西写出来。

先说硬件差距在哪

A100有两个版本:40GB HBM2和80GB HBM2e。H100也分SXM5和PCIe两种形态,显存80GB HBM3。光看参数表,H100的显存带宽是3.35 TB/s,A100 80GB是2 TB/s,差了将近70%。Transformer Engine是H100独有的,FP8精度训练在H100上原生支持,A100只能跑BF16/FP16。

NVLink带宽这块,H100 SXM5单卡900 GB/s,A100 SXM4是600 GB/s。做多卡并行训练的时候这个差距会被放大,不是线性的。

市面上的租用报价,我整理了一张表

以下数据来自我2024年底询价的几家主流云厂商,按小时计费,单卡价格(不含存储和网络费用):

目录结构
全文
GPU型号