后端转 AI Infra 的学习路径

做了几年后端，想转 AI Infra，怎么学？

这篇给一个实际可行的学习路径。

先评估基础

已有优势

后端工程师转 AI Infra，这些技能可以迁移：

后端技能	AI Infra 对应
K8s/Docker	GPU 集群管理
分布式系统	分布式训练
性能优化	推理优化
监控告警	GPU 监控
CI/CD	MLOps
Python	训练/推理代码

需要补充

GPU 基础知识
深度学习基础
AI 框架（PyTorch）
AI 场景的特殊问题

学习路径

阶段一：GPU 入门（1-2 周）

目标：能看懂 nvidia-smi，理解 GPU 基本概念。

学习内容：

GPU vs CPU 的区别
nvidia-smi 各字段含义
显存、算力、带宽的概念
主流 GPU 型号（H100、A100、4090）

实践：

# 在有 GPU 的机器上
nvidia-smi
nvidia-smi -l 1
nvidia-smi topo -m

资源：

本系列 01-03 篇
NVIDIA 官方文档

阶段二：深度学习基础（2-4 周）

目标：理解训练和推理的基本流程。

学习内容：

神经网络基础（前向/反向传播）
Transformer 架构
PyTorch 基础
训练一个简单模型

实践：

# 用 PyTorch 训练一个分类模型
import torch
import torch.nn as nn

model = nn.Linear(784, 10)
optimizer = torch.optim.Adam(model.parameters())
criterion = nn.CrossEntropyLoss()

for epoch in range(10):
    for batch in dataloader:
        output = model(batch['input'])
        loss = criterion(output, batch['label'])
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

资源：

李沐《动手学深度学习》
PyTorch 官方教程
Andrej Karpathy 的视频

阶段三：分布式训练（3-4 周）

目标：能跑通多卡训练，理解并行策略。

学习内容：

数据并行原理（DDP）
模型并行、流水线并行
DeepSpeed 使用
NCCL 通信

实践：

# PyTorch DDP
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP

dist.init_process_group(backend='nccl')
model = DDP(model)
# ... 正常训练

# 启动分布式训练
torchrun --nproc_per_node=4 train.py

资源：

本系列 10-13 篇
DeepSpeed 官方文档
HuggingFace Accelerate

阶段四：推理优化（2-3 周）

目标：能部署推理服务，理解优化原理。

学习内容：

推理 vs 训练的区别
KV Cache 原理
vLLM 使用和原理
量化基础

实践：

# 部署 vLLM 服务
from vllm import LLM

llm = LLM(model="meta-llama/Llama-2-7b-hf")
outputs = llm.generate(["Hello"], max_tokens=100)

# 启动 OpenAI 兼容 API
python -m vllm.entrypoints.openai.api_server \
    --model llama-7b --port 8000

资源：

本系列 14-17 篇
vLLM 官方文档
TensorRT-LLM 文档

阶段五：K8s GPU 调度（2-3 周）

目标：能在 K8s 上管理 GPU 任务。

学习内容：

Device Plugin 原理
GPU 资源配置
Volcano 调度器
GPU 切分（MIG、MPS）

实践：

# GPU Pod
apiVersion: v1
kind: Pod
spec:
  containers:
  - name: cuda
    resources:
      limits:
        nvidia.com/gpu: 1

资源：

本系列 21-24 篇
NVIDIA GPU Operator
Volcano 官方文档

阶段六：综合实践（4+ 周）

目标：搭建完整的 AI 平台。

实践项目：

搭建 GPU 监控（DCGM + Prometheus + Grafana）
部署 vLLM 推理服务
用 Volcano 跑分布式训练任务
实现简单的 MLOps 流水线

学习资源

书籍

书名	内容
《动手学深度学习》	DL 入门
《分布式机器学习》	分布式训练
《大规模语言模型》	LLM 全景

课程

课程	平台	内容
CS231n	Stanford	深度学习基础
Full Stack LLM	Fullstackdeeplearning	LLM 应用
CUDA 编程	NVIDIA DLI	GPU 编程

开源项目

项目	学习点
vLLM	推理优化
DeepSpeed	分布式训练
Megatron-LM	大模型训练
Ray	分布式框架

社区

HuggingFace 论坛
PyTorch 论坛
GitHub Issues（看别人怎么解决问题）

实践建议

搭建环境

方案一：云服务器

AWS/阿里云 GPU 实例
按量付费，用完释放
适合学习和实验

方案二：本地 GPU

4090 一张够入门
成本一万多
适合长期学习

方案三：Google Colab

免费 T4 GPU
限制较多
适合跑小实验

学习方法

先跑通再理解：不要一开始就钻原理，先跑通再看代码
看官方文档：中文博客可能过时或有错
动手改代码：改参数、看变化、调 bug
记笔记：记录踩过的坑

常见误区

只看不练：AI Infra 是实践学科
过早深入底层：先会用再看原理
追求全面：先精通一个方向
忽视基础：K8s、Python、Linux 基础要扎实

求职准备

简历准备

项目经验（没有的话自己做）：

搭建过 XX 卡的训练集群
部署过 XX 模型的推理服务
解决过 XX 性能问题

技能列表：

- GPU: nvidia-smi, CUDA, NCCL
- 框架: PyTorch, DeepSpeed, vLLM
- 调度: K8s, Volcano, Device Plugin
- 监控: Prometheus, Grafana, DCGM

面试准备

本系列 29 篇面试题
LeetCode 刷题（部分公司会考）
系统设计练习
复习项目细节

投递方向

方向	工作内容
训练平台	分布式训练、资源调度
推理平台	推理服务、性能优化
MLOps	模型管理、CI/CD
基础架构	集群管理、监控

时间规划

兼职学习（每周 10 小时）

第 1-2 周：GPU 入门
第 3-6 周：深度学习基础
第 7-10 周：分布式训练
第 11-13 周：推理优化
第 14-16 周：K8s 调度
第 17-20 周：综合实践

总计：约 5 个月

全职学习（每天 4-6 小时）

第 1 周：GPU 入门
第 2-3 周：深度学习基础
第 4-5 周：分布式训练
第 6 周：推理优化
第 7 周：K8s 调度
第 8-10 周：综合实践

总计：约 2.5 个月

小结

后端转 AI Infra 的路径：

GPU 入门 → DL 基础 → 分布式训练 → 推理优化 → K8s 调度 → 综合实践

核心建议：

先跑通再理解：动手比看书重要
聚焦一个方向：训练或推理，先精一个
做项目：没有项目经验，自己创造
持续学习：这个领域变化很快

已有后端基础是很大的优势。K8s、分布式、性能优化这些能力直接迁移。核心差距在 GPU 和 AI 知识，花几个月补上就行。

全系列完结

恭喜你看到这里！

本系列 30 篇文章，从零开始讲透 AI Infra：

GPU 基础
分布式训练
推理优化
K8s 调度
工程化
职业发展

希望对你有帮助。有问题欢迎交流。