起因是组里让我测一下推理成本

事情是这样的,上周leader突然说要我调研一下A100和4090跑大模型推理到底哪个划算。我当时心想,这不就查查参数算算账的事吗?结果搞了三天,真的会谢。

先说结论吧:没有标准答案,看你跑什么模型、什么场景。但我可以把我踩的坑和算的账都摊开说说。

纸面参数对比,看着A100碾压

A100 80G那个显存带宽2TB/s,4090是1TB/s。FP16算力A100是312 TFLOPS(开了TF32),4090大概330 TFLOPS。单看算力其实差不多,但显存容量差太多了——A100有80G,4090只有24G。

跑7B的模型两张卡都能塞下,没啥区别。但你要跑70B的,4090得搞个三四张做tensor parallel,A100一张就够。这个通信开销一上来,4090的优势就没了。

但是价格差距离谱

一张A100现在二手都要六七万,4090一万出头。你拿四张4090的钱还买不到一张A100。所以问题变成了:四张4090打得过一张A100吗?