HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于

H100、A100、4090:主流 GPU 怎么选

做 AI Infra,绑不开选 GPU 这件事。

市面上 GPU 型号一堆:H100、A100、H20、L40S、4090……价格从几万到几百万都有。到底该怎么选?

这篇把主流 GPU 的核心参数、适用场景、性价比都讲清楚。看完你就知道自己的场景该用什么卡了。


先看一张表

GPU显存显存带宽FP16 算力互联大致单卡价格定位
H100 SXM80GB3.35 TB/s1979 TFLOPSNVLink 4.025-30 万旗舰训练/推理
H100 PCIe80GB2.0 TB/s1513 TFLOPSPCIe 5.020-25 万数据中心推理
A100 80GB80GB2.0 TB/s312 TFLOPSNVLink 3.08-10 万上一代主力
A100 40GB40GB1.6 TB/s312 TFLOPSNVLink 3.06-8 万上一代入门
H2096GB4.0 TB/s148 TFLOPSPCIe 5.010-12 万中国特供推理
L40S48GB864 GB/s733 TFLOPSPCIe 4.08-10 万推理/图形
RTX 409024GB1.0 TB/s330 TFLOPSPCIe 4.01-1.5 万消费级/小模型

价格是大概范围,实际会有波动。


H100:当前的王者

H100 是 NVIDIA 目前最强的数据中心 GPU,基于 Hopper 架构,2022 年发布。

两个版本

  • H100 SXM:服务器专用版,用 SXM5 接口,支持 NVLink 4.0(900 GB/s 双向带宽)
  • H100 PCIe:标准 PCIe 卡,方便插在普通服务器上

SXM 版性能更强,但需要专门的服务器机箱(比如 DGX H100)。PCIe 版灵活性更好,兼容性更广。

核心优势

  1. 算力炸裂:FP16 算力接近 2000 TFLOPS,是 A100 的 6 倍
  2. 显存带宽高:3.35 TB/s,推理场景很重要
  3. 支持 FP8:新增 FP8 精度,推理效率更高
  4. Transformer Engine:针对 Transformer 架构优化,训练大模型更快

适合场景

  • 大模型训练(千亿参数级别)
  • 高吞吐推理服务
  • 对延迟敏感的在线推理
  • 预算充足的场景

缺点

贵。一台 8 卡 H100 服务器(DGX H100)要 200-300 万。

而且目前产能紧张,有钱也不一定买得到。


A100:上一代主力,性价比之选

A100 是 H100 的上一代,基于 Ampere 架构,2020 年发布。虽然不是最新的,但目前仍然是市场上的主力。

两个显存版本

  • A100 80GB:大显存版,2021 年发布
  • A100 40GB:初始版本

显存大小直接决定能跑多大的模型。如果要跑 7B 以上的模型,建议直接上 80GB 版本。

为什么还在用

  1. 性价比高:价格是 H100 的三分之一,性能差距没那么大(对于很多场景)
  2. 供货稳定:产能充足,想买就能买到
  3. 生态成熟:各种框架、优化都很完善
  4. 够用就行:不是所有场景都需要最强性能

适合场景

  • 中等规模模型训练(7B-70B)
  • 推理服务(对吞吐要求不是特别高)
  • 研究实验
  • 预算有限但需要专业卡的场景

A100 vs H100

简单说:

  • 训练大模型(100B+):上 H100
  • 训练中小模型或推理:A100 性价比更高
  • 钱多任性:H100
  • 钱紧但要干活:A100

H20:中国特供版

H20 是 NVIDIA 专门为中国市场推出的「阉割版」,符合美国出口管制要求。

参数特点

  • 显存大:96GB,比 H100 还大
  • 带宽高:4.0 TB/s,很猛
  • 算力低:FP16 只有 148 TFLOPS,被砍了 90% 以上

为什么算力这么低

美国的出口管制政策限制了高算力 GPU 出口到中国。H20 把算力砍到符合要求的水平,但保留了大显存和高带宽。

适合场景

这个配置其实挺有意思的:算力低但带宽高。

前面讲过,大模型推理是带宽瓶颈,不是算力瓶颈。所以 H20 做推理其实效果还不错:

  • 大模型推理(尤其是长上下文场景)
  • KV Cache 很大的场景
  • 对算力要求不高但显存要大的场景

不适合训练,因为训练更吃算力。

要不要买

如果你在国内,买不到 H100/A100,又需要跑大模型推理,H20 是个选择。

但要想清楚:这是个被限制的产品,长期来看不是最优解。


L40S:推理新秀

L40S 是 NVIDIA 2023 年推出的数据中心 GPU,基于 Ada Lovelace 架构(和 RTX 4090 同架构)。

定位

介于消费级和专业级之间。没有 NVLink,但有 48GB 显存,算力也不错。

特点

  • 显存够用:48GB 可以跑 7B-13B 模型
  • 性价比好:比 A100 便宜,推理性能不差
  • 功耗低:350W,比 H100 的 700W 低很多
  • 支持 FP8:推理效率高

适合场景

  • 中等规模模型推理
  • 对成本敏感的推理服务
  • 不需要多卡互联的场景

不适合

  • 大模型训练(没有 NVLink,多卡通信慢)
  • 需要超大显存的场景

RTX 4090:消费级之王

4090 是 NVIDIA 消费级显卡的旗舰,2022 年发布。

为什么会出现在 AI 场景

因为便宜。一张 4090 一万多,A100 要六七万。

核心参数

  • 24GB 显存
  • 1.0 TB/s 显存带宽
  • 330 TFLOPS FP16 算力

优点

  1. 性价比极高:算力不比 A100 差,价格是五分之一
  2. 买得到:消费级产品,供货充足
  3. 能跑小模型:7B 模型(量化后)勉强能跑

缺点

  1. 显存太小:24GB 是硬伤,稍大点的模型就跑不了
  2. 没有 NVLink:多卡互联只能走 PCIe,带宽低
  3. 不是为数据中心设计的:散热、稳定性、驱动支持都不如专业卡
  4. NVIDIA 不允许数据中心使用:协议上有限制(虽然很多人不管)

适合场景

  • 个人学习、研究
  • 小模型推理(7B 以下)
  • 预算极其有限
  • 不在乎稳定性和合规的场景

4090 多卡方案

有些人搞 4090 多卡集群,听起来性价比很高。但实际上坑很多:

  • PCIe 带宽不够,多卡通信慢
  • 散热是大问题
  • 驱动和软件支持不完善
  • 稳定性堪忧

小规模玩玩可以,生产环境不推荐。


怎么选

按预算选

预算推荐
1-2 万RTX 4090(个人学习)
5-10 万L40S 或 A100 40GB
10-20 万A100 80GB
20 万+H100

按场景选

场景推荐
大模型训练(100B+)H100 SXM
中等模型训练(7B-70B)A100 80GB
高吞吐推理服务H100 PCIe 或 L40S
长上下文推理H20(国内)
小模型推理L40S 或 4090
个人研究4090

按需求选

显存优先:H20 > H100/A100 80GB > L40S > A100 40GB > 4090

算力优先:H100 > L40S > 4090 > A100 > H20

带宽优先:H20 > H100 SXM > A100/H100 PCIe > 4090 > L40S

性价比:4090 > L40S > A100 > H20 > H100


一些实际建议

创业公司

刚开始别追求最好的。A100 或 L40S 足够应付大部分场景。等业务跑起来、需求明确了,再考虑升级。

大厂

直接上 H100,规模化采购能谈到更好的价格。而且大模型训练对算力要求高,省这个钱没意义。

个人开发者

4090 够用了。24GB 显存跑 7B 模型(INT4 量化)没问题。学习研究用足够。

国内公司

买不到 H100/A100 的话,H20 是目前的主要选择。或者考虑国产 GPU(华为昇腾、寒武纪等),但生态还不成熟,要有踩坑的准备。


小结

主流 GPU 选择:

  • H100:最强性能,最贵,大模型训练首选
  • A100:上一代主力,性价比好,够用就行
  • H20:中国特供,算力弱但显存大带宽高,适合推理
  • L40S:推理性价比之选
  • 4090:消费级,便宜,适合个人和小模型

选卡核心原则:先明确场景,再看预算,最后选卡。不要盲目追求最新最强。

下一篇讲 GPU 之间怎么通信:NVLink 和 PCIe 的区别。