H100、A100、4090:主流 GPU 怎么选
做 AI Infra,绑不开选 GPU 这件事。
市面上 GPU 型号一堆:H100、A100、H20、L40S、4090……价格从几万到几百万都有。到底该怎么选?
这篇把主流 GPU 的核心参数、适用场景、性价比都讲清楚。看完你就知道自己的场景该用什么卡了。
先看一张表
| GPU | 显存 | 显存带宽 | FP16 算力 | 互联 | 大致单卡价格 | 定位 |
|---|---|---|---|---|---|---|
| H100 SXM | 80GB | 3.35 TB/s | 1979 TFLOPS | NVLink 4.0 | 25-30 万 | 旗舰训练/推理 |
| H100 PCIe | 80GB | 2.0 TB/s | 1513 TFLOPS | PCIe 5.0 | 20-25 万 | 数据中心推理 |
| A100 80GB | 80GB | 2.0 TB/s | 312 TFLOPS | NVLink 3.0 | 8-10 万 | 上一代主力 |
| A100 40GB | 40GB | 1.6 TB/s | 312 TFLOPS | NVLink 3.0 | 6-8 万 | 上一代入门 |
| H20 | 96GB | 4.0 TB/s | 148 TFLOPS | PCIe 5.0 | 10-12 万 | 中国特供推理 |
| L40S | 48GB | 864 GB/s | 733 TFLOPS | PCIe 4.0 | 8-10 万 | 推理/图形 |
| RTX 4090 | 24GB | 1.0 TB/s | 330 TFLOPS | PCIe 4.0 | 1-1.5 万 | 消费级/小模型 |
价格是大概范围,实际会有波动。
H100:当前的王者
H100 是 NVIDIA 目前最强的数据中心 GPU,基于 Hopper 架构,2022 年发布。
两个版本
- H100 SXM:服务器专用版,用 SXM5 接口,支持 NVLink 4.0(900 GB/s 双向带宽)
- H100 PCIe:标准 PCIe 卡,方便插在普通服务器上
SXM 版性能更强,但需要专门的服务器机箱(比如 DGX H100)。PCIe 版灵活性更好,兼容性更广。
核心优势
- 算力炸裂:FP16 算力接近 2000 TFLOPS,是 A100 的 6 倍
- 显存带宽高:3.35 TB/s,推理场景很重要
- 支持 FP8:新增 FP8 精度,推理效率更高
- Transformer Engine:针对 Transformer 架构优化,训练大模型更快
适合场景
- 大模型训练(千亿参数级别)
- 高吞吐推理服务
- 对延迟敏感的在线推理
- 预算充足的场景
缺点
贵。一台 8 卡 H100 服务器(DGX H100)要 200-300 万。
而且目前产能紧张,有钱也不一定买得到。
A100:上一代主力,性价比之选
A100 是 H100 的上一代,基于 Ampere 架构,2020 年发布。虽然不是最新的,但目前仍然是市场上的主力。
两个显存版本
- A100 80GB:大显存版,2021 年发布
- A100 40GB:初始版本
显存大小直接决定能跑多大的模型。如果要跑 7B 以上的模型,建议直接上 80GB 版本。
为什么还在用
- 性价比高:价格是 H100 的三分之一,性能差距没那么大(对于很多场景)
- 供货稳定:产能充足,想买就能买到
- 生态成熟:各种框架、优化都很完善
- 够用就行:不是所有场景都需要最强性能
适合场景
- 中等规模模型训练(7B-70B)
- 推理服务(对吞吐要求不是特别高)
- 研究实验
- 预算有限但需要专业卡的场景
A100 vs H100
简单说:
- 训练大模型(100B+):上 H100
- 训练中小模型或推理:A100 性价比更高
- 钱多任性:H100
- 钱紧但要干活:A100
H20:中国特供版
H20 是 NVIDIA 专门为中国市场推出的「阉割版」,符合美国出口管制要求。
参数特点
- 显存大:96GB,比 H100 还大
- 带宽高:4.0 TB/s,很猛
- 算力低:FP16 只有 148 TFLOPS,被砍了 90% 以上
为什么算力这么低
美国的出口管制政策限制了高算力 GPU 出口到中国。H20 把算力砍到符合要求的水平,但保留了大显存和高带宽。
适合场景
这个配置其实挺有意思的:算力低但带宽高。
前面讲过,大模型推理是带宽瓶颈,不是算力瓶颈。所以 H20 做推理其实效果还不错:
- 大模型推理(尤其是长上下文场景)
- KV Cache 很大的场景
- 对算力要求不高但显存要大的场景
不适合训练,因为训练更吃算力。
要不要买
如果你在国内,买不到 H100/A100,又需要跑大模型推理,H20 是个选择。
但要想清楚:这是个被限制的产品,长期来看不是最优解。
L40S:推理新秀
L40S 是 NVIDIA 2023 年推出的数据中心 GPU,基于 Ada Lovelace 架构(和 RTX 4090 同架构)。
定位
介于消费级和专业级之间。没有 NVLink,但有 48GB 显存,算力也不错。
特点
- 显存够用:48GB 可以跑 7B-13B 模型
- 性价比好:比 A100 便宜,推理性能不差
- 功耗低:350W,比 H100 的 700W 低很多
- 支持 FP8:推理效率高
适合场景
- 中等规模模型推理
- 对成本敏感的推理服务
- 不需要多卡互联的场景
不适合
- 大模型训练(没有 NVLink,多卡通信慢)
- 需要超大显存的场景
RTX 4090:消费级之王
4090 是 NVIDIA 消费级显卡的旗舰,2022 年发布。
为什么会出现在 AI 场景
因为便宜。一张 4090 一万多,A100 要六七万。
核心参数
- 24GB 显存
- 1.0 TB/s 显存带宽
- 330 TFLOPS FP16 算力
优点
- 性价比极高:算力不比 A100 差,价格是五分之一
- 买得到:消费级产品,供货充足
- 能跑小模型:7B 模型(量化后)勉强能跑
缺点
- 显存太小:24GB 是硬伤,稍大点的模型就跑不了
- 没有 NVLink:多卡互联只能走 PCIe,带宽低
- 不是为数据中心设计的:散热、稳定性、驱动支持都不如专业卡
- NVIDIA 不允许数据中心使用:协议上有限制(虽然很多人不管)
适合场景
- 个人学习、研究
- 小模型推理(7B 以下)
- 预算极其有限
- 不在乎稳定性和合规的场景
4090 多卡方案
有些人搞 4090 多卡集群,听起来性价比很高。但实际上坑很多:
- PCIe 带宽不够,多卡通信慢
- 散热是大问题
- 驱动和软件支持不完善
- 稳定性堪忧
小规模玩玩可以,生产环境不推荐。
怎么选
按预算选
| 预算 | 推荐 |
|---|---|
| 1-2 万 | RTX 4090(个人学习) |
| 5-10 万 | L40S 或 A100 40GB |
| 10-20 万 | A100 80GB |
| 20 万+ | H100 |
按场景选
| 场景 | 推荐 |
|---|---|
| 大模型训练(100B+) | H100 SXM |
| 中等模型训练(7B-70B) | A100 80GB |
| 高吞吐推理服务 | H100 PCIe 或 L40S |
| 长上下文推理 | H20(国内) |
| 小模型推理 | L40S 或 4090 |
| 个人研究 | 4090 |
按需求选
显存优先:H20 > H100/A100 80GB > L40S > A100 40GB > 4090
算力优先:H100 > L40S > 4090 > A100 > H20
带宽优先:H20 > H100 SXM > A100/H100 PCIe > 4090 > L40S
性价比:4090 > L40S > A100 > H20 > H100
一些实际建议
创业公司
刚开始别追求最好的。A100 或 L40S 足够应付大部分场景。等业务跑起来、需求明确了,再考虑升级。
大厂
直接上 H100,规模化采购能谈到更好的价格。而且大模型训练对算力要求高,省这个钱没意义。
个人开发者
4090 够用了。24GB 显存跑 7B 模型(INT4 量化)没问题。学习研究用足够。
国内公司
买不到 H100/A100 的话,H20 是目前的主要选择。或者考虑国产 GPU(华为昇腾、寒武纪等),但生态还不成熟,要有踩坑的准备。
小结
主流 GPU 选择:
- H100:最强性能,最贵,大模型训练首选
- A100:上一代主力,性价比好,够用就行
- H20:中国特供,算力弱但显存大带宽高,适合推理
- L40S:推理性价比之选
- 4090:消费级,便宜,适合个人和小模型
选卡核心原则:先明确场景,再看预算,最后选卡。不要盲目追求最新最强。
下一篇讲 GPU 之间怎么通信:NVLink 和 PCIe 的区别。