2025 AI 成本普查：买卡、租云还是调 API？

在这个“百模大战”转入“降本增效”的 2025 年，技术圈最焦虑的不再是“怎么跑通 Demo”，而是“怎么不被 Token 费烧死”。

作为老板或架构师，你可能每天都在面临这个灵魂拷问：自建算力集群到底能不能回本？

如果直接调 DeepSeek 的 API，每百万 Token 只要几毛钱；但如果为了隐私和稳定搞私有化，一块 H20 都要大十几万。这笔账怎么算？今天我们抛开情怀，只谈钱。

一、算力市场的“三足鼎立”

2025 年的 GPU 市场已经形成了极其诡异的分层：

H100：全球算力的黄金标准。如果你在做超大规模训练，它是唯一能打的。
H20：中国市场的“特殊生存策略”。显存够大（96GB），带宽够快，但算力（Flops）只有 H100 的 1/5 左右。它是为了应对合规和断供的权宜之计，但在大模型推理场景，它的性价比出奇的高。

4090：游戏卡里的战神。24GB 显存虽然捉襟见肘，但在 4-bit 量化技术的加持下，它是中小企业跑 Llama-3 70B 或 Qwen-72B 的“穷人救星”。
6000 Ada：48GB 显存，不折不扣的推理之王。比 4090 贵，但单卡能承载的模型规模翻倍。

很多工程师算账只算买卡的钱，这会导致你的 ROI 计算偏差超过 50%。私有化部署有四大隐形成本：

一块 H100 的最大功耗是 700W。算上服务器主板、硬盘和数据中心 1.5 的 PUE（能源效率），一机 8 卡的服务器一年的电费可能就够你买一块入门级的 A6000 了。

维护一个 K8s + GPU 调度集群，不是找个后端随手就能搞定的。你需要懂显驱、懂 NCCL 通信优化、懂 Promethus 监控、懂模型镜像加速。一个资深 AI Infra 工程师的年薪，在这个账单里占比极重。

API 挂了你可以发邮件投诉或者换一家。私有化集群要是其中一块卡挂了（GPU 损坏率比 CPU 高得多），或者是机房断电，整个业务的停机损失得谁来扛？

我们假设一个典型的推理场景：每天处理 1000 万个 Token（约 500 万汉字）。

如果你还是觉得自建太贵，调 API 又怕被卡脖子，可以尝试以下三种方案：

边缘侧推理（Edge Computing）：利用 Mac Studio (M2/M3 Ultra) 跑推理。Apple Silicon 的统一内存架构是推理的神器，192GB 的内存可以几乎跑下所有主流大模型，且电费极低。
按需租赁（Spot Instance）：在非高峰时段租赁公有云的竞价实例。价格只有正式实例的 1/3，适合离线训练和长文档预处理。
模型蒸馏（Distillation）：用 GPT-4 这种大模型生成数据，训练一个专属于你业务的 7B 甚至 3B 小模型。小模型只需要一张 4090 就能飞起，综合成本降低 90%。

AI 时代的竞争，最后都是能量和成本的竞争。谁能把单次推理的价格降到一厘钱以下，谁就能在 AI 下半场活下来。

作者简介：HiHuo。专注工程与 AI 基础设施，深耕 K8s 与 GPU 调度，旨在用硬核工程能力连接 AI 世界。