AI Infra 公众号系列
从零开始,用人话讲透 AI 基础设施。看完能上手干活,能去面试。
系列定位
- 目标读者:有后端经验,想了解或转型 AI Infra 的工程师
- 内容风格:通俗易懂,有代码有配置,学完能用
- 单篇字数:3000-5000 字
- 写作规范:见 STYLE_GUIDE.md
系列目录
导读
| 序号 | 标题 | 定位 | 状态 |
|---|---|---|---|
| 00 | AI 大模型行业概览 | 非技术人士入门,概念科普 | ✅ |
第一部分:入门概述
| 序号 | 标题 | 状态 |
|---|---|---|
| 01 | AI Infra 到底是什么 | ✅ |
| 02 | nvidia-smi 输出详解 | ✅ |
| 03 | GPU 的核心指标:显存、算力、带宽 | ✅ |
第二部分:GPU 硬件
| 序号 | 标题 | 状态 |
|---|---|---|
| 04 | H100、A100、4090:主流 GPU 怎么选 | ✅ |
| 05 | NVLink 和 PCIe:GPU 之间怎么通信 | ✅ |
| 06 | InfiniBand:跨机器的高速网络 | ✅ |
第三部分:数据篇
| 序号 | 标题 | 状态 |
|---|---|---|
| 07 | 训练数据长什么样 | ✅ |
| 08 | 数据标注:模型的粮食怎么来的 | ✅ |
| 09 | 知名数据集和数据公司 | ✅ |
第四部分:训练篇
| 序号 | 标题 | 状态 |
|---|---|---|
| 10 | 为什么要分布式训练 | ✅ |
| 11 | 数据并行、模型并行、流水线并行 | ✅ |
| 12 | NCCL:GPU 之间怎么同步数据 | ✅ |
| 13 | 训练框架对比:DDP vs DeepSpeed vs Megatron | ✅ |
第五部分:推理篇
| 序号 | 标题 | 状态 |
|---|---|---|
| 14 | 推理和训练有什么不一样 | ✅ |
| 15 | KV Cache:为什么显存越用越多 | ✅ |
| 16 | vLLM 原理:PagedAttention 和 Continuous Batching | ✅ |
| 17 | 推理框架对比:vLLM vs TensorRT-LLM vs SGLang | ✅ |
第六部分:评测篇
| 序号 | 标题 | 状态 |
|---|---|---|
| 18 | 模型评测是怎么回事 | ✅ |
| 19 | 常见 Benchmark:MMLU、HumanEval、GSM8K | ✅ |
| 20 | Leaderboard 和评测平台 | ✅ |
第七部分:调度篇
| 序号 | 标题 | 状态 |
|---|---|---|
| 21 | K8s 怎么管理 GPU:Device Plugin 原理 | ✅ |
| 22 | Volcano:AI 场景的批处理调度器 | ✅ |
| 23 | GPU 切分:MIG、MPS、vGPU | ✅ |
| 24 | GPU 调度的常见问题 | ✅ |
第八部分:工程化
| 序号 | 标题 | 状态 |
|---|---|---|
| 25 | AI 平台的监控告警 | ✅ |
| 26 | GPU 利用率优化 | ✅ |
| 27 | AI Infra 的成本怎么算 | ✅ |
| 28 | MLOps:模型的 CI/CD | ✅ |
第九部分:职业发展
| 序号 | 标题 | 状态 |
|---|---|---|
| 29 | AI Infra 面试会问什么 | ✅ |
| 30 | 后端转 AI Infra 的学习路径 | ✅ |
已完成文章
导读 + 入门(00-03)
- 00-AI 大模型行业概览 - 非技术人士入门,讲清楚行业全貌和基本概念
- 01-AI Infra 到底是什么 - 技术入门,讲清楚 AI Infra 的定义和范围
- 02-nvidia-smi 输出详解 - 实操入门,逐行解释 GPU 状态命令
- 03-GPU 核心指标 - 理论基础,显存、算力、带宽的关系
GPU 硬件(04-06)
- 04-主流 GPU 怎么选 - H100、A100、H20、L40S、4090 的参数对比和选型建议
- 05-NVLink 和 PCIe - GPU 互联方式,为什么多卡训练要用 NVLink
- 06-InfiniBand - 跨机器高速网络,RDMA 和 GPUDirect
数据篇(07-09)
- 07-训练数据格式 - 预训练、SFT、RLHF 各阶段数据长什么样
- 08-数据标注 - 标注流程、成本、难点
- 09-数据集和数据公司 - 常用开源数据集和数据服务商
训练篇(10-13)
- 10-为什么要分布式训练 - 显存和算力的限制,分布式的代价
- 11-并行方式 - 数据并行、张量并行、流水线并行、ZeRO
- 12-NCCL - GPU 集合通信,AllReduce 等操作
- 13-训练框架对比 - DDP、FSDP、DeepSpeed、Megatron 选型
推理篇(14-17)
- 14-推理 vs 训练 - 两者的核心区别,优化方向不同
- 15-KV Cache - 为什么显存越用越多,优化方法
- 16-vLLM 原理 - PagedAttention 和 Continuous Batching
- 17-推理框架对比 - vLLM、TensorRT-LLM、SGLang、TGI 选型
评测篇(18-20)
- 18-模型评测 - 评测类型、指标、流程
- 19-常见 Benchmark - MMLU、HumanEval、GSM8K 等
- 20-Leaderboard - 排行榜和评测平台
调度篇(21-24)
- 21-Device Plugin - K8s 怎么管理 GPU
- 22-Volcano - AI 场景的批处理调度器
- 23-GPU 切分 - MIG、MPS、vGPU
- 24-GPU 调度问题 - 常见问题和排查方法
工程化(25-28)
- 25-监控告警 - GPU 监控、训练监控、推理监控
- 26-GPU 利用率优化 - 诊断和优化方法
- 27-成本计算 - 硬件、运营、云服务成本
- 28-MLOps - 版本管理、流水线、CI/CD
职业发展(29-30)
- 29-面试题 - 常见面试问题和参考答案
- 30-学习路径 - 后端转 AI Infra 的学习建议
状态说明
- 📝 待写
- ✍️ 写作中
- ✅ 已完成
- 📤 已发布