HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于

后端转 AI Infra 的学习路径

做了几年后端,想转 AI Infra,怎么学?

这篇给一个实际可行的学习路径。


先评估基础

已有优势

后端工程师转 AI Infra,这些技能可以迁移:

后端技能AI Infra 对应
K8s/DockerGPU 集群管理
分布式系统分布式训练
性能优化推理优化
监控告警GPU 监控
CI/CDMLOps
Python训练/推理代码

需要补充

  • GPU 基础知识
  • 深度学习基础
  • AI 框架(PyTorch)
  • AI 场景的特殊问题

学习路径

阶段一:GPU 入门(1-2 周)

目标:能看懂 nvidia-smi,理解 GPU 基本概念。

学习内容:

  1. GPU vs CPU 的区别
  2. nvidia-smi 各字段含义
  3. 显存、算力、带宽的概念
  4. 主流 GPU 型号(H100、A100、4090)

实践:

# 在有 GPU 的机器上
nvidia-smi
nvidia-smi -l 1
nvidia-smi topo -m

资源:

  • 本系列 01-03 篇
  • NVIDIA 官方文档

阶段二:深度学习基础(2-4 周)

目标:理解训练和推理的基本流程。

学习内容:

  1. 神经网络基础(前向/反向传播)
  2. Transformer 架构
  3. PyTorch 基础
  4. 训练一个简单模型

实践:

# 用 PyTorch 训练一个分类模型
import torch
import torch.nn as nn

model = nn.Linear(784, 10)
optimizer = torch.optim.Adam(model.parameters())
criterion = nn.CrossEntropyLoss()

for epoch in range(10):
    for batch in dataloader:
        output = model(batch['input'])
        loss = criterion(output, batch['label'])
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

资源:

  • 李沐《动手学深度学习》
  • PyTorch 官方教程
  • Andrej Karpathy 的视频

阶段三:分布式训练(3-4 周)

目标:能跑通多卡训练,理解并行策略。

学习内容:

  1. 数据并行原理(DDP)
  2. 模型并行、流水线并行
  3. DeepSpeed 使用
  4. NCCL 通信

实践:

# PyTorch DDP
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP

dist.init_process_group(backend='nccl')
model = DDP(model)
# ... 正常训练
# 启动分布式训练
torchrun --nproc_per_node=4 train.py

资源:

  • 本系列 10-13 篇
  • DeepSpeed 官方文档
  • HuggingFace Accelerate

阶段四:推理优化(2-3 周)

目标:能部署推理服务,理解优化原理。

学习内容:

  1. 推理 vs 训练的区别
  2. KV Cache 原理
  3. vLLM 使用和原理
  4. 量化基础

实践:

# 部署 vLLM 服务
from vllm import LLM

llm = LLM(model="meta-llama/Llama-2-7b-hf")
outputs = llm.generate(["Hello"], max_tokens=100)
# 启动 OpenAI 兼容 API
python -m vllm.entrypoints.openai.api_server \
    --model llama-7b --port 8000

资源:

  • 本系列 14-17 篇
  • vLLM 官方文档
  • TensorRT-LLM 文档

阶段五:K8s GPU 调度(2-3 周)

目标:能在 K8s 上管理 GPU 任务。

学习内容:

  1. Device Plugin 原理
  2. GPU 资源配置
  3. Volcano 调度器
  4. GPU 切分(MIG、MPS)

实践:

# GPU Pod
apiVersion: v1
kind: Pod
spec:
  containers:
  - name: cuda
    resources:
      limits:
        nvidia.com/gpu: 1

资源:

  • 本系列 21-24 篇
  • NVIDIA GPU Operator
  • Volcano 官方文档

阶段六:综合实践(4+ 周)

目标:搭建完整的 AI 平台。

实践项目:

  1. 搭建 GPU 监控(DCGM + Prometheus + Grafana)
  2. 部署 vLLM 推理服务
  3. 用 Volcano 跑分布式训练任务
  4. 实现简单的 MLOps 流水线

学习资源

书籍

书名内容
《动手学深度学习》DL 入门
《分布式机器学习》分布式训练
《大规模语言模型》LLM 全景

课程

课程平台内容
CS231nStanford深度学习基础
Full Stack LLMFullstackdeeplearningLLM 应用
CUDA 编程NVIDIA DLIGPU 编程

开源项目

项目学习点
vLLM推理优化
DeepSpeed分布式训练
Megatron-LM大模型训练
Ray分布式框架

社区

  • HuggingFace 论坛
  • PyTorch 论坛
  • GitHub Issues(看别人怎么解决问题)

实践建议

搭建环境

方案一:云服务器

  • AWS/阿里云 GPU 实例
  • 按量付费,用完释放
  • 适合学习和实验

方案二:本地 GPU

  • 4090 一张够入门
  • 成本一万多
  • 适合长期学习

方案三:Google Colab

  • 免费 T4 GPU
  • 限制较多
  • 适合跑小实验

学习方法

  1. 先跑通再理解:不要一开始就钻原理,先跑通再看代码
  2. 看官方文档:中文博客可能过时或有错
  3. 动手改代码:改参数、看变化、调 bug
  4. 记笔记:记录踩过的坑

常见误区

  • 只看不练:AI Infra 是实践学科
  • 过早深入底层:先会用再看原理
  • 追求全面:先精通一个方向
  • 忽视基础:K8s、Python、Linux 基础要扎实

求职准备

简历准备

项目经验(没有的话自己做):

  • 搭建过 XX 卡的训练集群
  • 部署过 XX 模型的推理服务
  • 解决过 XX 性能问题

技能列表:

- GPU: nvidia-smi, CUDA, NCCL
- 框架: PyTorch, DeepSpeed, vLLM
- 调度: K8s, Volcano, Device Plugin
- 监控: Prometheus, Grafana, DCGM

面试准备

  • 本系列 29 篇面试题
  • LeetCode 刷题(部分公司会考)
  • 系统设计练习
  • 复习项目细节

投递方向

方向工作内容
训练平台分布式训练、资源调度
推理平台推理服务、性能优化
MLOps模型管理、CI/CD
基础架构集群管理、监控

时间规划

兼职学习(每周 10 小时)

第 1-2 周:GPU 入门
第 3-6 周:深度学习基础
第 7-10 周:分布式训练
第 11-13 周:推理优化
第 14-16 周:K8s 调度
第 17-20 周:综合实践

总计:约 5 个月

全职学习(每天 4-6 小时)

第 1 周:GPU 入门
第 2-3 周:深度学习基础
第 4-5 周:分布式训练
第 6 周:推理优化
第 7 周:K8s 调度
第 8-10 周:综合实践

总计:约 2.5 个月

小结

后端转 AI Infra 的路径:

GPU 入门 → DL 基础 → 分布式训练 → 推理优化 → K8s 调度 → 综合实践

核心建议:

  1. 先跑通再理解:动手比看书重要
  2. 聚焦一个方向:训练或推理,先精一个
  3. 做项目:没有项目经验,自己创造
  4. 持续学习:这个领域变化很快

已有后端基础是很大的优势。K8s、分布式、性能优化这些能力直接迁移。核心差距在 GPU 和 AI 知识,花几个月补上就行。


全系列完结

恭喜你看到这里!

本系列 30 篇文章,从零开始讲透 AI Infra:

  • GPU 基础
  • 分布式训练
  • 推理优化
  • K8s 调度
  • 工程化
  • 职业发展

希望对你有帮助。有问题欢迎交流。