HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于

AI Infra 的成本怎么算

大模型烧钱是共识,但具体烧多少?怎么算?

这篇讲清楚 AI Infra 的成本构成和计算方法。


成本构成

硬件成本

项目单价参考说明
H100 SXM25-30 万单卡
A100 80GB8-10 万单卡
DGX H100200-300 万8 卡整机
InfiniBand 交换机50-100 万高端型号
服务器(不含 GPU)10-20 万含 CPU、内存、SSD

8 卡 H100 服务器总成本:

GPU: 8 × 25 万 = 200 万
服务器: 20 万
网卡: 10 万
总计: 约 230 万

运营成本

项目月成本参考说明
电费5-10 万/机柜取决于 PUE 和电价
机房托管3-5 万/机柜一线城市
网络带宽1-5 万取决于规模
人员3-10 万/人运维工程师

单台 8 卡服务器月运营成本:

功耗: 8 × 700W + 服务器 = 7kW
电费: 7kW × 24h × 30d × 1元/度 = 5000 元
机房: 按比例分摊约 3000 元
总计: 约 8000 元/月

云服务成本

按需付费(参考价,实际有波动):

实例类型小时价格月成本(24×30)
AWS p4d.24xlarge(8×A100)$32约 17 万
AWS p5.48xlarge(8×H100)$98约 53 万
阿里云 gn7i(8×A100)¥200约 14 万

云比自建贵 3-5 倍,但灵活、不用前期投入。


训练成本估算

公式

训练成本 = GPU 小时数 × 单价

GPU 小时数 = 计算量 / (GPU 算力 × 利用率)

计算量估算

大模型训练计算量(Scaling Law):

计算量 ≈ 6 × 参数量 × 训练 token 数

例:7B 模型训练 1T token

计算量 = 6 × 7B × 1T = 4.2 × 10^22 FLOPS

训练时间

A100 FP16 算力: 312 TFLOPS
利用率: 50%(实际利用率)
有效算力: 156 TFLOPS

单卡时间 = 4.2 × 10^22 / (156 × 10^12) / 3600 = 7.5 万小时

成本

用 64 卡 A100:
训练时间 = 7.5 万 / 64 ≈ 1170 小时 ≈ 49 天

云成本(AWS p4d):
64 卡 = 8 台 p4d
成本 = 8 × $32 × 1170 = $300,000 ≈ 200 万人民币

自建成本(只算电费):
功耗 = 64 × 400W = 25.6 kW
电费 = 25.6 × 1170 × 1 = 3 万元

更大模型

模型训练 token计算量64×A100 时间云成本估算
7B1T4.2×10²²49 天200 万
70B2T8.4×10²³980 天4000 万
175B300B3.2×10²³370 天1500 万

70B 以上模型,训练成本轻松过千万。


推理成本估算

按 token 计费

API 价格参考:
GPT-4: $30/1M output tokens
GPT-3.5: $2/1M output tokens

月成本估算(假设日均 100 万 token):

GPT-4: 30 × 30 × $30 = $27,000 ≈ 20 万/月
GPT-3.5: 30 × 30 × $2 = $1,800 ≈ 1.3 万/月

自建推理

配置:1 台 8×A100 跑 LLaMA-70B

成本:

云服务器: 14 万/月
自建电费: 0.5 万/月

能力:

吞吐: 约 2000 tokens/s
月产出: 2000 × 3600 × 24 × 30 = 52 亿 token
单位成本: 14 万 / 52 亿 ≈ 0.027 元/千 token

对比:

GPT-4: $30/1M = 0.2 元/千 token
自建 LLaMA-70B: 0.027 元/千 token

自建便宜 7 倍+,但效果可能有差距

自建 vs 云

什么时候自建划算

自建月成本 = 硬件折旧 + 运营成本
云月成本 = 小时单价 × 使用时长

假设硬件 3 年折旧:
8 卡 H100 自建月成本 = 230 万 / 36 + 0.8 万 = 7.2 万
8 卡 H100 云月成本(满负载)= 53 万

结论:满负载跑,自建 2-3 个月回本

什么时候用云划算

  • 使用率低(< 30%)
  • 短期项目
  • 不想自己运维
  • 需要弹性扩缩

混合方案

基础负载:自建(长期稳定)
峰值负载:云(弹性扩展)

成本优化

硬件层面

选对卡:

  • 训练:H100 性价比不如 A100
  • 推理:H20 可能比 H100 划算(显存大带宽高)

利用率:

  • 利用率从 30% 提到 60%,相当于成本降一半

软件层面

量化:

FP16 → INT8:显存减半,吞吐提升
FP16 → INT4:显存减 75%,吞吐大幅提升

Batching:

单请求推理:效率低
Continuous Batching:吞吐提升 2-4x

小模型替代:

不是所有场景都需要 70B
7B 模型 + 好的 prompt,很多场景够用

运营层面

Spot 实例:

AWS Spot: 按需价格的 30-70%
适合可中断的训练任务

预留实例:

1 年预留:省 30-40%
3 年预留:省 50-60%

错峰使用:

夜间电价便宜
训练任务不要求实时

成本监控

关键指标

# GPU 小时成本
gpu_hours = usage_hours * gpu_count
cost = gpu_hours * price_per_hour

# 单位产出成本
cost_per_token = total_cost / total_tokens
cost_per_request = total_cost / total_requests

归因到业务

成本标签:
- 项目:project=llm-training
- 团队:team=nlp
- 用途:usage=training/inference

按标签统计,看哪个项目/团队花钱最多

预算告警

# 月预算超过 80% 告警
- alert: CostBudgetWarning
  expr: monthly_cost / budget > 0.8
  labels:
    severity: warning
  annotations:
    summary: "月成本已达预算 80%"

小结

AI Infra 成本核心:

构成:

  • 硬件:GPU、服务器、网络
  • 运营:电费、机房、人员
  • 云服务:按需付费

估算方法:

训练成本 = 计算量 / 算力 × 单价
推理成本 = token 数 × 单价

优化方向:

  • 提高利用率
  • 量化
  • 小模型替代
  • 混合云

核心认知:

  • 大模型训练成本以百万计
  • 推理成本取决于规模
  • 自建 vs 云要看使用率

下一篇讲 MLOps。