AI Infra 的成本怎么算

大模型烧钱是共识，但具体烧多少？怎么算？

这篇讲清楚 AI Infra 的成本构成和计算方法。

成本构成

硬件成本

项目	单价参考	说明
H100 SXM	25-30 万	单卡
A100 80GB	8-10 万	单卡
DGX H100	200-300 万	8 卡整机
InfiniBand 交换机	50-100 万	高端型号
服务器（不含 GPU）	10-20 万	含 CPU、内存、SSD

8 卡 H100 服务器总成本：

GPU: 8 × 25 万 = 200 万
服务器: 20 万
网卡: 10 万
总计: 约 230 万

运营成本

项目	月成本参考	说明
电费	5-10 万/机柜	取决于 PUE 和电价
机房托管	3-5 万/机柜	一线城市
网络带宽	1-5 万	取决于规模
人员	3-10 万/人	运维工程师

单台 8 卡服务器月运营成本：

功耗: 8 × 700W + 服务器 = 7kW
电费: 7kW × 24h × 30d × 1元/度 = 5000 元
机房: 按比例分摊约 3000 元
总计: 约 8000 元/月

云服务成本

按需付费（参考价，实际有波动）：

实例类型	小时价格	月成本（24×30）
AWS p4d.24xlarge（8×A100）	$32	约 17 万
AWS p5.48xlarge（8×H100）	$98	约 53 万
阿里云 gn7i（8×A100）	¥200	约 14 万

云比自建贵 3-5 倍，但灵活、不用前期投入。

训练成本估算

公式

训练成本 = GPU 小时数 × 单价

GPU 小时数 = 计算量 / (GPU 算力 × 利用率)

计算量估算

大模型训练计算量（Scaling Law）：

计算量 ≈ 6 × 参数量 × 训练 token 数

例：7B 模型训练 1T token

计算量 = 6 × 7B × 1T = 4.2 × 10^22 FLOPS

训练时间

A100 FP16 算力: 312 TFLOPS
利用率: 50%（实际利用率）
有效算力: 156 TFLOPS

单卡时间 = 4.2 × 10^22 / (156 × 10^12) / 3600 = 7.5 万小时

成本

用 64 卡 A100:
训练时间 = 7.5 万 / 64 ≈ 1170 小时 ≈ 49 天

云成本（AWS p4d）:
64 卡 = 8 台 p4d
成本 = 8 × $32 × 1170 = $300,000 ≈ 200 万人民币

自建成本（只算电费）:
功耗 = 64 × 400W = 25.6 kW
电费 = 25.6 × 1170 × 1 = 3 万元

更大模型

模型	训练 token	计算量	64×A100 时间	云成本估算
7B	1T	4.2×10²²	49 天	200 万
70B	2T	8.4×10²³	980 天	4000 万
175B	300B	3.2×10²³	370 天	1500 万

70B 以上模型，训练成本轻松过千万。

推理成本估算

按 token 计费

API 价格参考：
GPT-4: $30/1M output tokens
GPT-3.5: $2/1M output tokens

月成本估算（假设日均 100 万 token）:

GPT-4: 30 × 30 × $30 = $27,000 ≈ 20 万/月
GPT-3.5: 30 × 30 × $2 = $1,800 ≈ 1.3 万/月

自建推理

配置：1 台 8×A100 跑 LLaMA-70B

成本：

云服务器: 14 万/月
自建电费: 0.5 万/月

能力：

吞吐: 约 2000 tokens/s
月产出: 2000 × 3600 × 24 × 30 = 52 亿 token
单位成本: 14 万 / 52 亿 ≈ 0.027 元/千 token

对比:

GPT-4: $30/1M = 0.2 元/千 token
自建 LLaMA-70B: 0.027 元/千 token

自建便宜 7 倍+，但效果可能有差距

自建 vs 云

什么时候自建划算

自建月成本 = 硬件折旧 + 运营成本
云月成本 = 小时单价 × 使用时长

假设硬件 3 年折旧：
8 卡 H100 自建月成本 = 230 万 / 36 + 0.8 万 = 7.2 万
8 卡 H100 云月成本（满负载）= 53 万

结论：满负载跑，自建 2-3 个月回本

什么时候用云划算

使用率低（< 30%）
短期项目
不想自己运维
需要弹性扩缩

混合方案

基础负载：自建（长期稳定）
峰值负载：云（弹性扩展）

成本优化

硬件层面

选对卡：

训练：H100 性价比不如 A100
推理：H20 可能比 H100 划算（显存大带宽高）

利用率：

利用率从 30% 提到 60%，相当于成本降一半

软件层面

量化：

FP16 → INT8：显存减半，吞吐提升
FP16 → INT4：显存减 75%，吞吐大幅提升

Batching：

单请求推理：效率低
Continuous Batching：吞吐提升 2-4x

小模型替代：

不是所有场景都需要 70B
7B 模型 + 好的 prompt，很多场景够用

运营层面

Spot 实例：

AWS Spot: 按需价格的 30-70%
适合可中断的训练任务

预留实例：

1 年预留：省 30-40%
3 年预留：省 50-60%

错峰使用：

夜间电价便宜
训练任务不要求实时

成本监控

关键指标

# GPU 小时成本
gpu_hours = usage_hours * gpu_count
cost = gpu_hours * price_per_hour

# 单位产出成本
cost_per_token = total_cost / total_tokens
cost_per_request = total_cost / total_requests

归因到业务

成本标签：
- 项目：project=llm-training
- 团队：team=nlp
- 用途：usage=training/inference

按标签统计，看哪个项目/团队花钱最多

预算告警

# 月预算超过 80% 告警
- alert: CostBudgetWarning
  expr: monthly_cost / budget > 0.8
  labels:
    severity: warning
  annotations:
    summary: "月成本已达预算 80%"

小结

AI Infra 成本核心：

构成：

硬件：GPU、服务器、网络
运营：电费、机房、人员
云服务：按需付费

估算方法：

训练成本 = 计算量 / 算力 × 单价
推理成本 = token 数 × 单价

优化方向：

提高利用率
量化
小模型替代
混合云

核心认知：

大模型训练成本以百万计
推理成本取决于规模
自建 vs 云要看使用率

下一篇讲 MLOps。