H100、A100、4090：主流 GPU 怎么选

做 AI Infra，绑不开选 GPU 这件事。

市面上 GPU 型号一堆：H100、A100、H20、L40S、4090……价格从几万到几百万都有。到底该怎么选？

这篇把主流 GPU 的核心参数、适用场景、性价比都讲清楚。看完你就知道自己的场景该用什么卡了。

先看一张表

GPU	显存	显存带宽	FP16 算力	互联	大致单卡价格	定位
H100 SXM	80GB	3.35 TB/s	1979 TFLOPS	NVLink 4.0	25-30 万	旗舰训练/推理
H100 PCIe	80GB	2.0 TB/s	1513 TFLOPS	PCIe 5.0	20-25 万	数据中心推理
A100 80GB	80GB	2.0 TB/s	312 TFLOPS	NVLink 3.0	8-10 万	上一代主力
A100 40GB	40GB	1.6 TB/s	312 TFLOPS	NVLink 3.0	6-8 万	上一代入门
H20	96GB	4.0 TB/s	148 TFLOPS	PCIe 5.0	10-12 万	中国特供推理
L40S	48GB	864 GB/s	733 TFLOPS	PCIe 4.0	8-10 万	推理/图形
RTX 4090	24GB	1.0 TB/s	330 TFLOPS	PCIe 4.0	1-1.5 万	消费级/小模型

价格是大概范围，实际会有波动。

H100：当前的王者

H100 是 NVIDIA 目前最强的数据中心 GPU，基于 Hopper 架构，2022 年发布。

两个版本

H100 SXM：服务器专用版，用 SXM5 接口，支持 NVLink 4.0（900 GB/s 双向带宽）
H100 PCIe：标准 PCIe 卡，方便插在普通服务器上

SXM 版性能更强，但需要专门的服务器机箱（比如 DGX H100）。PCIe 版灵活性更好，兼容性更广。

核心优势

算力炸裂：FP16 算力接近 2000 TFLOPS，是 A100 的 6 倍
显存带宽高：3.35 TB/s，推理场景很重要
支持 FP8：新增 FP8 精度，推理效率更高
Transformer Engine：针对 Transformer 架构优化，训练大模型更快

适合场景

大模型训练（千亿参数级别）
高吞吐推理服务
对延迟敏感的在线推理
预算充足的场景

缺点

贵。一台 8 卡 H100 服务器（DGX H100）要 200-300 万。

而且目前产能紧张，有钱也不一定买得到。

A100：上一代主力，性价比之选

A100 是 H100 的上一代，基于 Ampere 架构，2020 年发布。虽然不是最新的，但目前仍然是市场上的主力。

两个显存版本

A100 80GB：大显存版，2021 年发布
A100 40GB：初始版本

显存大小直接决定能跑多大的模型。如果要跑 7B 以上的模型，建议直接上 80GB 版本。

为什么还在用

性价比高：价格是 H100 的三分之一，性能差距没那么大（对于很多场景）
供货稳定：产能充足，想买就能买到
生态成熟：各种框架、优化都很完善
够用就行：不是所有场景都需要最强性能

适合场景

中等规模模型训练（7B-70B）
推理服务（对吞吐要求不是特别高）
研究实验
预算有限但需要专业卡的场景

A100 vs H100

简单说：

训练大模型（100B+）：上 H100
训练中小模型或推理：A100 性价比更高
钱多任性：H100
钱紧但要干活：A100

H20：中国特供版

H20 是 NVIDIA 专门为中国市场推出的「阉割版」，符合美国出口管制要求。

参数特点

显存大：96GB，比 H100 还大
带宽高：4.0 TB/s，很猛
算力低：FP16 只有 148 TFLOPS，被砍了 90% 以上

为什么算力这么低

美国的出口管制政策限制了高算力 GPU 出口到中国。H20 把算力砍到符合要求的水平，但保留了大显存和高带宽。

适合场景

这个配置其实挺有意思的：算力低但带宽高。

前面讲过，大模型推理是带宽瓶颈，不是算力瓶颈。所以 H20 做推理其实效果还不错：

大模型推理（尤其是长上下文场景）
KV Cache 很大的场景
对算力要求不高但显存要大的场景

不适合训练，因为训练更吃算力。

要不要买

如果你在国内，买不到 H100/A100，又需要跑大模型推理，H20 是个选择。

但要想清楚：这是个被限制的产品，长期来看不是最优解。

L40S：推理新秀

L40S 是 NVIDIA 2023 年推出的数据中心 GPU，基于 Ada Lovelace 架构（和 RTX 4090 同架构）。

定位

介于消费级和专业级之间。没有 NVLink，但有 48GB 显存，算力也不错。

特点

显存够用：48GB 可以跑 7B-13B 模型
性价比好：比 A100 便宜，推理性能不差
功耗低：350W，比 H100 的 700W 低很多
支持 FP8：推理效率高

适合场景

中等规模模型推理
对成本敏感的推理服务
不需要多卡互联的场景

不适合

大模型训练（没有 NVLink，多卡通信慢）
需要超大显存的场景

RTX 4090：消费级之王

4090 是 NVIDIA 消费级显卡的旗舰，2022 年发布。

为什么会出现在 AI 场景

因为便宜。一张 4090 一万多，A100 要六七万。

核心参数

24GB 显存
1.0 TB/s 显存带宽
330 TFLOPS FP16 算力

优点

性价比极高：算力不比 A100 差，价格是五分之一
买得到：消费级产品，供货充足
能跑小模型：7B 模型（量化后）勉强能跑

缺点

显存太小：24GB 是硬伤，稍大点的模型就跑不了
没有 NVLink：多卡互联只能走 PCIe，带宽低
不是为数据中心设计的：散热、稳定性、驱动支持都不如专业卡
NVIDIA 不允许数据中心使用：协议上有限制（虽然很多人不管）

适合场景

个人学习、研究
小模型推理（7B 以下）
预算极其有限
不在乎稳定性和合规的场景

4090 多卡方案

有些人搞 4090 多卡集群，听起来性价比很高。但实际上坑很多：

PCIe 带宽不够，多卡通信慢
散热是大问题
驱动和软件支持不完善
稳定性堪忧

小规模玩玩可以，生产环境不推荐。

怎么选

按预算选

预算	推荐
1-2 万	RTX 4090（个人学习）
5-10 万	L40S 或 A100 40GB
10-20 万	A100 80GB
20 万+	H100

按场景选

场景	推荐
大模型训练（100B+）	H100 SXM
中等模型训练（7B-70B）	A100 80GB
高吞吐推理服务	H100 PCIe 或 L40S
长上下文推理	H20（国内）
小模型推理	L40S 或 4090
个人研究	4090