A100和H100 GPU服务器租用做大模型微调成本差多少
起因是我老板让我调研GPU服务器租用方案
事情是这样的,组里要跑一个7B模型的LoRA微调,老板让我这个菜鸟去调研一下A100和H100租用到底差多少钱。我当时想的是,不就查个价嘛,结果一查发现这水深得离谱。
先说结论吧:同样跑一个7B模型的全量微调,H100比A100快大概1.5-2倍,但价格也贵了差不多60%-100%。具体划不划算,得看你的任务类型。
先搞清楚硬件差在哪
A100有40GB和80GB两个版本,HBM2e显存,FP16算力312 TFLOPS。H100是80GB HBM3,FP16算力989 TFLOPS(开了稀疏性的话翻倍,但微调一般用不满)。
说人话就是:H100的显存带宽从2TB/s干到了3.35TB/s,这对大模型推理和微调的影响是实打实的,因为这类任务很多时候瓶颈就在显存搬运数据的速度上。
实际跑起来差多少
我拿公司的测试任务试了下(LLaMA-7B,LoRA rank=16,数据集大概50k条):
A100 80GB:一个epoch大概跑了4.5小时
H100 80GB:同样配置,2.8小时左右
快了差不多38%。没到理论上的2倍,因为LoRA微调本身计算量没那么恐怖,瓶颈不完全在算力。但如果是全量微调13B以上的模型,差距会更明显。