AI Infra 的成本怎么算
大模型烧钱是共识,但具体烧多少?怎么算?
这篇讲清楚 AI Infra 的成本构成和计算方法。
成本构成
硬件成本
| 项目 | 单价参考 | 说明 |
|---|---|---|
| H100 SXM | 25-30 万 | 单卡 |
| A100 80GB | 8-10 万 | 单卡 |
| DGX H100 | 200-300 万 | 8 卡整机 |
| InfiniBand 交换机 | 50-100 万 | 高端型号 |
| 服务器(不含 GPU) | 10-20 万 | 含 CPU、内存、SSD |
8 卡 H100 服务器总成本:
GPU: 8 × 25 万 = 200 万
服务器: 20 万
网卡: 10 万
总计: 约 230 万
运营成本
| 项目 | 月成本参考 | 说明 |
|---|---|---|
| 电费 | 5-10 万/机柜 | 取决于 PUE 和电价 |
| 机房托管 | 3-5 万/机柜 | 一线城市 |
| 网络带宽 | 1-5 万 | 取决于规模 |
| 人员 | 3-10 万/人 | 运维工程师 |
单台 8 卡服务器月运营成本:
功耗: 8 × 700W + 服务器 = 7kW
电费: 7kW × 24h × 30d × 1元/度 = 5000 元
机房: 按比例分摊约 3000 元
总计: 约 8000 元/月
云服务成本
按需付费(参考价,实际有波动):
| 实例类型 | 小时价格 | 月成本(24×30) |
|---|---|---|
| AWS p4d.24xlarge(8×A100) | $32 | 约 17 万 |
| AWS p5.48xlarge(8×H100) | $98 | 约 53 万 |
| 阿里云 gn7i(8×A100) | ¥200 | 约 14 万 |
云比自建贵 3-5 倍,但灵活、不用前期投入。
训练成本估算
公式
训练成本 = GPU 小时数 × 单价
GPU 小时数 = 计算量 / (GPU 算力 × 利用率)
计算量估算
大模型训练计算量(Scaling Law):
计算量 ≈ 6 × 参数量 × 训练 token 数
例:7B 模型训练 1T token
计算量 = 6 × 7B × 1T = 4.2 × 10^22 FLOPS
训练时间
A100 FP16 算力: 312 TFLOPS
利用率: 50%(实际利用率)
有效算力: 156 TFLOPS
单卡时间 = 4.2 × 10^22 / (156 × 10^12) / 3600 = 7.5 万小时
成本
用 64 卡 A100:
训练时间 = 7.5 万 / 64 ≈ 1170 小时 ≈ 49 天
云成本(AWS p4d):
64 卡 = 8 台 p4d
成本 = 8 × $32 × 1170 = $300,000 ≈ 200 万人民币
自建成本(只算电费):
功耗 = 64 × 400W = 25.6 kW
电费 = 25.6 × 1170 × 1 = 3 万元
更大模型
| 模型 | 训练 token | 计算量 | 64×A100 时间 | 云成本估算 |
|---|---|---|---|---|
| 7B | 1T | 4.2×10²² | 49 天 | 200 万 |
| 70B | 2T | 8.4×10²³ | 980 天 | 4000 万 |
| 175B | 300B | 3.2×10²³ | 370 天 | 1500 万 |
70B 以上模型,训练成本轻松过千万。
推理成本估算
按 token 计费
API 价格参考:
GPT-4: $30/1M output tokens
GPT-3.5: $2/1M output tokens
月成本估算(假设日均 100 万 token):
GPT-4: 30 × 30 × $30 = $27,000 ≈ 20 万/月
GPT-3.5: 30 × 30 × $2 = $1,800 ≈ 1.3 万/月
自建推理
配置:1 台 8×A100 跑 LLaMA-70B
成本:
云服务器: 14 万/月
自建电费: 0.5 万/月
能力:
吞吐: 约 2000 tokens/s
月产出: 2000 × 3600 × 24 × 30 = 52 亿 token
单位成本: 14 万 / 52 亿 ≈ 0.027 元/千 token
对比:
GPT-4: $30/1M = 0.2 元/千 token
自建 LLaMA-70B: 0.027 元/千 token
自建便宜 7 倍+,但效果可能有差距
自建 vs 云
什么时候自建划算
自建月成本 = 硬件折旧 + 运营成本
云月成本 = 小时单价 × 使用时长
假设硬件 3 年折旧:
8 卡 H100 自建月成本 = 230 万 / 36 + 0.8 万 = 7.2 万
8 卡 H100 云月成本(满负载)= 53 万
结论:满负载跑,自建 2-3 个月回本
什么时候用云划算
- 使用率低(< 30%)
- 短期项目
- 不想自己运维
- 需要弹性扩缩
混合方案
基础负载:自建(长期稳定)
峰值负载:云(弹性扩展)
成本优化
硬件层面
选对卡:
- 训练:H100 性价比不如 A100
- 推理:H20 可能比 H100 划算(显存大带宽高)
利用率:
- 利用率从 30% 提到 60%,相当于成本降一半
软件层面
量化:
FP16 → INT8:显存减半,吞吐提升
FP16 → INT4:显存减 75%,吞吐大幅提升
Batching:
单请求推理:效率低
Continuous Batching:吞吐提升 2-4x
小模型替代:
不是所有场景都需要 70B
7B 模型 + 好的 prompt,很多场景够用
运营层面
Spot 实例:
AWS Spot: 按需价格的 30-70%
适合可中断的训练任务
预留实例:
1 年预留:省 30-40%
3 年预留:省 50-60%
错峰使用:
夜间电价便宜
训练任务不要求实时
成本监控
关键指标
# GPU 小时成本
gpu_hours = usage_hours * gpu_count
cost = gpu_hours * price_per_hour
# 单位产出成本
cost_per_token = total_cost / total_tokens
cost_per_request = total_cost / total_requests
归因到业务
成本标签:
- 项目:project=llm-training
- 团队:team=nlp
- 用途:usage=training/inference
按标签统计,看哪个项目/团队花钱最多
预算告警
# 月预算超过 80% 告警
- alert: CostBudgetWarning
expr: monthly_cost / budget > 0.8
labels:
severity: warning
annotations:
summary: "月成本已达预算 80%"
小结
AI Infra 成本核心:
构成:
- 硬件:GPU、服务器、网络
- 运营:电费、机房、人员
- 云服务:按需付费
估算方法:
训练成本 = 计算量 / 算力 × 单价
推理成本 = token 数 × 单价
优化方向:
- 提高利用率
- 量化
- 小模型替代
- 混合云
核心认知:
- 大模型训练成本以百万计
- 推理成本取决于规模
- 自建 vs 云要看使用率
下一篇讲 MLOps。