后端转 AI Infra 的学习路径
做了几年后端,想转 AI Infra,怎么学?
这篇给一个实际可行的学习路径。
先评估基础
已有优势
后端工程师转 AI Infra,这些技能可以迁移:
| 后端技能 | AI Infra 对应 |
|---|---|
| K8s/Docker | GPU 集群管理 |
| 分布式系统 | 分布式训练 |
| 性能优化 | 推理优化 |
| 监控告警 | GPU 监控 |
| CI/CD | MLOps |
| Python | 训练/推理代码 |
需要补充
- GPU 基础知识
- 深度学习基础
- AI 框架(PyTorch)
- AI 场景的特殊问题
学习路径
阶段一:GPU 入门(1-2 周)
目标:能看懂 nvidia-smi,理解 GPU 基本概念。
学习内容:
- GPU vs CPU 的区别
- nvidia-smi 各字段含义
- 显存、算力、带宽的概念
- 主流 GPU 型号(H100、A100、4090)
实践:
# 在有 GPU 的机器上
nvidia-smi
nvidia-smi -l 1
nvidia-smi topo -m
资源:
- 本系列 01-03 篇
- NVIDIA 官方文档
阶段二:深度学习基础(2-4 周)
目标:理解训练和推理的基本流程。
学习内容:
- 神经网络基础(前向/反向传播)
- Transformer 架构
- PyTorch 基础
- 训练一个简单模型
实践:
# 用 PyTorch 训练一个分类模型
import torch
import torch.nn as nn
model = nn.Linear(784, 10)
optimizer = torch.optim.Adam(model.parameters())
criterion = nn.CrossEntropyLoss()
for epoch in range(10):
for batch in dataloader:
output = model(batch['input'])
loss = criterion(output, batch['label'])
loss.backward()
optimizer.step()
optimizer.zero_grad()
资源:
- 李沐《动手学深度学习》
- PyTorch 官方教程
- Andrej Karpathy 的视频
阶段三:分布式训练(3-4 周)
目标:能跑通多卡训练,理解并行策略。
学习内容:
- 数据并行原理(DDP)
- 模型并行、流水线并行
- DeepSpeed 使用
- NCCL 通信
实践:
# PyTorch DDP
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP
dist.init_process_group(backend='nccl')
model = DDP(model)
# ... 正常训练
# 启动分布式训练
torchrun --nproc_per_node=4 train.py
资源:
- 本系列 10-13 篇
- DeepSpeed 官方文档
- HuggingFace Accelerate
阶段四:推理优化(2-3 周)
目标:能部署推理服务,理解优化原理。
学习内容:
- 推理 vs 训练的区别
- KV Cache 原理
- vLLM 使用和原理
- 量化基础
实践:
# 部署 vLLM 服务
from vllm import LLM
llm = LLM(model="meta-llama/Llama-2-7b-hf")
outputs = llm.generate(["Hello"], max_tokens=100)
# 启动 OpenAI 兼容 API
python -m vllm.entrypoints.openai.api_server \
--model llama-7b --port 8000
资源:
- 本系列 14-17 篇
- vLLM 官方文档
- TensorRT-LLM 文档
阶段五:K8s GPU 调度(2-3 周)
目标:能在 K8s 上管理 GPU 任务。
学习内容:
- Device Plugin 原理
- GPU 资源配置
- Volcano 调度器
- GPU 切分(MIG、MPS)
实践:
# GPU Pod
apiVersion: v1
kind: Pod
spec:
containers:
- name: cuda
resources:
limits:
nvidia.com/gpu: 1
资源:
- 本系列 21-24 篇
- NVIDIA GPU Operator
- Volcano 官方文档
阶段六:综合实践(4+ 周)
目标:搭建完整的 AI 平台。
实践项目:
- 搭建 GPU 监控(DCGM + Prometheus + Grafana)
- 部署 vLLM 推理服务
- 用 Volcano 跑分布式训练任务
- 实现简单的 MLOps 流水线
学习资源
书籍
| 书名 | 内容 |
|---|---|
| 《动手学深度学习》 | DL 入门 |
| 《分布式机器学习》 | 分布式训练 |
| 《大规模语言模型》 | LLM 全景 |
课程
| 课程 | 平台 | 内容 |
|---|---|---|
| CS231n | Stanford | 深度学习基础 |
| Full Stack LLM | Fullstackdeeplearning | LLM 应用 |
| CUDA 编程 | NVIDIA DLI | GPU 编程 |
开源项目
| 项目 | 学习点 |
|---|---|
| vLLM | 推理优化 |
| DeepSpeed | 分布式训练 |
| Megatron-LM | 大模型训练 |
| Ray | 分布式框架 |
社区
- HuggingFace 论坛
- PyTorch 论坛
- GitHub Issues(看别人怎么解决问题)
实践建议
搭建环境
方案一:云服务器
- AWS/阿里云 GPU 实例
- 按量付费,用完释放
- 适合学习和实验
方案二:本地 GPU
- 4090 一张够入门
- 成本一万多
- 适合长期学习
方案三:Google Colab
- 免费 T4 GPU
- 限制较多
- 适合跑小实验
学习方法
- 先跑通再理解:不要一开始就钻原理,先跑通再看代码
- 看官方文档:中文博客可能过时或有错
- 动手改代码:改参数、看变化、调 bug
- 记笔记:记录踩过的坑
常见误区
- 只看不练:AI Infra 是实践学科
- 过早深入底层:先会用再看原理
- 追求全面:先精通一个方向
- 忽视基础:K8s、Python、Linux 基础要扎实
求职准备
简历准备
项目经验(没有的话自己做):
- 搭建过 XX 卡的训练集群
- 部署过 XX 模型的推理服务
- 解决过 XX 性能问题
技能列表:
- GPU: nvidia-smi, CUDA, NCCL
- 框架: PyTorch, DeepSpeed, vLLM
- 调度: K8s, Volcano, Device Plugin
- 监控: Prometheus, Grafana, DCGM
面试准备
- 本系列 29 篇面试题
- LeetCode 刷题(部分公司会考)
- 系统设计练习
- 复习项目细节
投递方向
| 方向 | 工作内容 |
|---|---|
| 训练平台 | 分布式训练、资源调度 |
| 推理平台 | 推理服务、性能优化 |
| MLOps | 模型管理、CI/CD |
| 基础架构 | 集群管理、监控 |
时间规划
兼职学习(每周 10 小时)
第 1-2 周:GPU 入门
第 3-6 周:深度学习基础
第 7-10 周:分布式训练
第 11-13 周:推理优化
第 14-16 周:K8s 调度
第 17-20 周:综合实践
总计:约 5 个月
全职学习(每天 4-6 小时)
第 1 周:GPU 入门
第 2-3 周:深度学习基础
第 4-5 周:分布式训练
第 6 周:推理优化
第 7 周:K8s 调度
第 8-10 周:综合实践
总计:约 2.5 个月
小结
后端转 AI Infra 的路径:
GPU 入门 → DL 基础 → 分布式训练 → 推理优化 → K8s 调度 → 综合实践
核心建议:
- 先跑通再理解:动手比看书重要
- 聚焦一个方向:训练或推理,先精一个
- 做项目:没有项目经验,自己创造
- 持续学习:这个领域变化很快
已有后端基础是很大的优势。K8s、分布式、性能优化这些能力直接迁移。核心差距在 GPU 和 AI 知识,花几个月补上就行。
全系列完结
恭喜你看到这里!
本系列 30 篇文章,从零开始讲透 AI Infra:
- GPU 基础
- 分布式训练
- 推理优化
- K8s 调度
- 工程化
- 职业发展
希望对你有帮助。有问题欢迎交流。