AI Infra 公众号系列

从零开始，用人话讲透 AI 基础设施。看完能上手干活，能去面试。

系列定位

目标读者：有后端经验，想了解或转型 AI Infra 的工程师
内容风格：通俗易懂，有代码有配置，学完能用
单篇字数：3000-5000 字
写作规范：见 STYLE_GUIDE.md

系列目录

导读

序号	标题	定位	状态
00	AI 大模型行业概览	非技术人士入门，概念科普	✅

第一部分：入门概述

序号	标题	状态
01	AI Infra 到底是什么	✅
02	nvidia-smi 输出详解	✅
03	GPU 的核心指标：显存、算力、带宽	✅

第二部分：GPU 硬件

序号	标题	状态
04	H100、A100、4090：主流 GPU 怎么选	✅
05	NVLink 和 PCIe：GPU 之间怎么通信	✅
06	InfiniBand：跨机器的高速网络	✅

第三部分：数据篇

序号	标题	状态
07	训练数据长什么样	✅
08	数据标注：模型的粮食怎么来的	✅
09	知名数据集和数据公司	✅

第四部分：训练篇

序号	标题	状态
10	为什么要分布式训练	✅
11	数据并行、模型并行、流水线并行	✅
12	NCCL：GPU 之间怎么同步数据	✅
13	训练框架对比：DDP vs DeepSpeed vs Megatron	✅

第五部分：推理篇

序号	标题	状态
14	推理和训练有什么不一样	✅
15	KV Cache：为什么显存越用越多	✅
16	vLLM 原理：PagedAttention 和 Continuous Batching	✅
17	推理框架对比：vLLM vs TensorRT-LLM vs SGLang	✅

第六部分：评测篇

序号	标题	状态
18	模型评测是怎么回事	✅
19	常见 Benchmark：MMLU、HumanEval、GSM8K	✅
20	Leaderboard 和评测平台	✅

第七部分：调度篇

序号	标题	状态
21	K8s 怎么管理 GPU：Device Plugin 原理	✅
22	Volcano：AI 场景的批处理调度器	✅
23	GPU 切分：MIG、MPS、vGPU	✅
24	GPU 调度的常见问题	✅

第八部分：工程化

序号	标题	状态
25	AI 平台的监控告警	✅
26	GPU 利用率优化	✅
27	AI Infra 的成本怎么算	✅
28	MLOps：模型的 CI/CD	✅

第九部分：职业发展

序号	标题	状态
29	AI Infra 面试会问什么	✅
30	后端转 AI Infra 的学习路径	✅

已完成文章

导读 + 入门（00-03）

00-AI 大模型行业概览 - 非技术人士入门，讲清楚行业全貌和基本概念
01-AI Infra 到底是什么 - 技术入门，讲清楚 AI Infra 的定义和范围
02-nvidia-smi 输出详解 - 实操入门，逐行解释 GPU 状态命令
03-GPU 核心指标 - 理论基础，显存、算力、带宽的关系

GPU 硬件（04-06）

04-主流 GPU 怎么选 - H100、A100、H20、L40S、4090 的参数对比和选型建议
05-NVLink 和 PCIe - GPU 互联方式，为什么多卡训练要用 NVLink
06-InfiniBand - 跨机器高速网络，RDMA 和 GPUDirect

数据篇（07-09）

07-训练数据格式 - 预训练、SFT、RLHF 各阶段数据长什么样
08-数据标注 - 标注流程、成本、难点
09-数据集和数据公司 - 常用开源数据集和数据服务商

训练篇（10-13）

10-为什么要分布式训练 - 显存和算力的限制，分布式的代价
11-并行方式 - 数据并行、张量并行、流水线并行、ZeRO
12-NCCL - GPU 集合通信，AllReduce 等操作
13-训练框架对比 - DDP、FSDP、DeepSpeed、Megatron 选型

推理篇（14-17）

14-推理 vs 训练 - 两者的核心区别，优化方向不同
15-KV Cache - 为什么显存越用越多，优化方法
16-vLLM 原理 - PagedAttention 和 Continuous Batching
17-推理框架对比 - vLLM、TensorRT-LLM、SGLang、TGI 选型

评测篇（18-20）

18-模型评测 - 评测类型、指标、流程
19-常见 Benchmark - MMLU、HumanEval、GSM8K 等
20-Leaderboard - 排行榜和评测平台

调度篇（21-24）

21-Device Plugin - K8s 怎么管理 GPU
22-Volcano - AI 场景的批处理调度器
23-GPU 切分 - MIG、MPS、vGPU
24-GPU 调度问题 - 常见问题和排查方法

工程化（25-28）

25-监控告警 - GPU 监控、训练监控、推理监控
26-GPU 利用率优化 - 诊断和优化方法
27-成本计算 - 硬件、运营、云服务成本
28-MLOps - 版本管理、流水线、CI/CD

职业发展（29-30）

29-面试题 - 常见面试问题和参考答案
30-学习路径 - 后端转 AI Infra 的学习建议

状态说明

📝 待写
✍️ 写作中
✅ 已完成
📤 已发布