AI Infra 深度教程

面向 AI 基础设施工程师的完整学习路径，从 GPU 容器化到大模型应用架构

目标读者

AI Infra / MLOps / AIOps 工程师
云原生平台开发者
AI 平台 SRE
希望转型 AI 基础设施领域的后端工程师
算法工程师（希望深入了解底层基础设施）

快速开始

根据你的背景选择学习路径：

后端工程师 → 从 GPU 容器化开始
算法工程师 → 从 CUDA 编程开始
应届生/转行 → 从前置知识速览开始

学习路径

┌─────────────────────────────────────────────────────────────────────────────┐
│                         AI Infra 学习路径                                    │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│   Level 0: 入门 (可选)                                                      │
│   ┌─────────────────────────────────────────────────────────────────────┐  │
│   │  00-快速入门         → 学习路径指南、前置知识速览                      │  │
│   └─────────────────────────────────────────────────────────────────────┘  │
│                              │                                              │
│                              ▼                                              │
│   Level 1: 基础 (1-2 周)                                                    │
│   ┌─────────────────────────────────────────────────────────────────────┐  │
│   │  01-GPU容器化         → GPU 架构、NVIDIA 运行时、隔离共享             │  │
│   └─────────────────────────────────────────────────────────────────────┘  │
│                              │                                              │
│                              ▼                                              │
│   Level 2: 核心 (2-3 周)                                                    │
│   ┌─────────────────────────────────────────────────────────────────────┐  │
│   │  02-Kubernetes-GPU调度 → Device Plugin、调度器扩展、拓扑感知          │  │
│   │  03-AI训练平台        → 分布式训练、任务调度、容错恢复                 │  │
│   │  04-推理服务          → Triton、模型优化、动态批处理                   │  │
│   └─────────────────────────────────────────────────────────────────────┘  │
│                              │                                              │
│                              ▼                                              │
│   Level 3: 高级 (2-3 周)                                                    │
│   ┌─────────────────────────────────────────────────────────────────────┐  │
│   │  05-异构计算           → 多芯片适配、统一调度                          │  │
│   │  06-AI工作流引擎       → DAG 编排、Agent 工作流                        │  │
│   │  07-MLOps实践          → 模型管理、特征工程、持续训练                  │  │
│   └─────────────────────────────────────────────────────────────────────┘  │
│                              │                                              │
│                              ▼                                              │
│   Level 4: 专家 (持续)                                                      │
│   ┌─────────────────────────────────────────────────────────────────────┐  │
│   │  10-CUDA编程           → 内存层次、Kernel开发、TensorCore              │  │
│   │  11-通信与网络         → NCCL源码、AllReduce、RDMA                     │  │
│   │  12-框架源码解析       → PyTorch、DeepSpeed、vLLM                      │  │
│   │  13-编译优化           → TorchDynamo、XLA、算子融合                    │  │
│   └─────────────────────────────────────────────────────────────────────┘  │
│                              │                                              │
│                              ▼                                              │
│   Level 5: 前沿 (持续)                                                      │
│   ┌─────────────────────────────────────────────────────────────────────┐  │
│   │  14-LLM应用架构        → RAG、Agent、多Agent协作                       │  │
│   │  15-前沿技术           → MoE、Speculative Decoding、多模态             │  │
│   │  16-端到端实战         → 从零搭建 LLM 推理服务                         │  │
│   └─────────────────────────────────────────────────────────────────────┘  │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

目录结构

00-快速入门 🆕

新手必读，学习路径规划

章节	内容	难度
01-学习路径指南	不同背景读者的学习路径	⭐
02-前置知识速览	深度学习、GPU、K8s 基础	⭐

01-GPU 容器化

GPU 基础知识与容器化技术

章节	内容	难度
01-GPU架构基础	CUDA 架构、GPU 内存模型、计算单元	⭐⭐
02-NVIDIA容器运行时	nvidia-container-runtime、libnvidia-container	⭐⭐
03-GPU共享与隔离	MIG、vGPU、时分复用、显存隔离	⭐⭐⭐
04-GPU监控与调试	nvidia-smi、DCGM、GPU 指标采集	⭐⭐

02-Kubernetes GPU 调度

K8s 扩展资源与 GPU 调度

章节	内容	难度
01-Device-Plugin机制	设备插件架构、Extended Resources	⭐⭐⭐
02-GPU调度器实现	调度器扩展、GPU 感知调度	⭐⭐⭐⭐
03-拓扑感知调度	NUMA、NVLink、PCIe 拓扑	⭐⭐⭐⭐
04-弹性GPU调度	动态分配、抢占、弹性伸缩	⭐⭐⭐

03-AI 训练平台

大规模分布式训练基础设施

章节	内容	难度
01-分布式训练框架	数据并行、模型并行、流水线并行	⭐⭐⭐
02-训练任务调度	Gang Scheduling、优先级、队列管理	⭐⭐⭐⭐
03-模型存储与管理	Checkpoint、模型版本、分布式存储	⭐⭐⭐
04-实验管理	实验追踪、参数管理、结果对比	⭐⭐
05-超参数优化	HPO 算法、AutoML 集成	⭐⭐⭐

04-推理服务

模型服务化与在线推理

章节	内容	难度
01-推理引擎原理	TensorRT、ONNX Runtime 原理	⭐⭐⭐
02-模型服务框架	Triton、TorchServe、KServe	⭐⭐⭐
03-动态批处理	Batching 策略、Continuous Batching	⭐⭐⭐
04-推理优化技术	量化、剪枝、KV Cache、FlashAttention	⭐⭐⭐⭐
05-多模型服务	模型切换、显存管理、热加载	⭐⭐⭐

05-异构计算

多种 AI 加速芯片适配

章节	内容	难度
01-异构计算概述	NPU、TPU、FPGA、ASIC	⭐⭐
02-GPU虚拟化技术	MIG、vGPU、GPU 池化	⭐⭐⭐
03-NPU与专用芯片	昇腾、寒武纪、TPU	⭐⭐⭐
04-设备拓扑感知调度	多芯片拓扑、统一调度	⭐⭐⭐⭐
05-算力池化与弹性调度	资源池化、弹性伸缩	⭐⭐⭐⭐

06-AI 工作流引擎

AI 任务编排与流水线

章节	内容	难度
01-工作流引擎概述	DAG 引擎、状态机、任务调度	⭐⭐⭐
02-Kubeflow-Pipelines	Kubeflow 使用与扩展	⭐⭐⭐
03-Argo-Workflows	Argo 使用与实践	⭐⭐⭐
04-数据版本管理	DVC、数据血缘	⭐⭐
05-实验跟踪与模型注册	MLflow、模型仓库	⭐⭐⭐

07-MLOps 实践

机器学习生命周期管理

章节	内容	难度
01-MLOps成熟度模型	MLOps 演进阶段	⭐⭐
02-数据集工程	数据管理、标注、质量	⭐⭐⭐
03-Feature-Store	特征工程、特征服务	⭐⭐⭐
04-模型评测体系	评估指标、测试框架	⭐⭐⭐
05-模型安全与治理	模型安全、合规治理	⭐⭐⭐
06-LLM安全与防护	Prompt注入防护、内容安全、对齐	⭐⭐⭐⭐

08-AIOps 实践

AI 赋能运维自动化

章节	内容	难度
01-AIOps概述与架构	AIOps 体系架构	⭐⭐
02-异常检测算法	时序异常、日志异常	⭐⭐⭐
03-根因分析与告警聚合	根因定位、告警降噪	⭐⭐⭐⭐
04-智能运维决策	自愈系统、决策引擎	⭐⭐⭐
05-AIOps平台实战	完整平台案例	⭐⭐⭐

09-面试专题

AI Infra 面试准备

章节	内容	难度
01-AI基础设施核心面试题	GPU、分布式、推理等核心题	⭐⭐⭐
02-大模型面试题	LLM 训练、推理优化	⭐⭐⭐⭐
03-系统设计面试题	架构设计、容量估算	⭐⭐⭐⭐

10-CUDA 编程与算子开发 🔥

GPU 编程进阶

章节	内容	难度
01-CUDA编程模型与内存层次	Grid/Block/Thread、内存类型	⭐⭐⭐
02-高性能Kernel开发实战	优化技巧、Profile 分析	⭐⭐⭐⭐
03-TensorCore与矩阵运算	WMMA、矩阵乘加速	⭐⭐⭐⭐
04-算子融合与优化技术	Kernel 融合、FlashAttention	⭐⭐⭐⭐⭐
05-Triton编程入门	Python 写 GPU Kernel	⭐⭐⭐

11-通信与网络底层 🔥

分布式通信深度解析

章节	内容	难度
01-NCCL源码深度解析	通信原语、Ring/Tree 算法	⭐⭐⭐⭐⭐
02-AllReduce算法实现	Ring、Tree、Recursive Halving	⭐⭐⭐⭐
03-RDMA与InfiniBand原理	高速网络、RDMA 编程	⭐⭐⭐⭐
04-网络拓扑与通信优化	拓扑感知、通信优化	⭐⭐⭐⭐
05-大规模集群网络架构	万卡集群网络设计	⭐⭐⭐⭐⭐

12-框架源码解析 🔥

主流框架深度解析

章节	内容	难度
01-PyTorch分布式源码解析	DDP、FSDP 实现	⭐⭐⭐⭐
02-DeepSpeed源码深度解析	ZeRO、Offload 实现	⭐⭐⭐⭐⭐
03-Megatron-LM源码解析	TP/PP/SP 实现	⭐⭐⭐⭐⭐
04-vLLM推理引擎源码解析	PagedAttention、Scheduling	⭐⭐⭐⭐⭐
05-HuggingFace-Transformers源码解析	模型加载、生成逻辑	⭐⭐⭐⭐

13-编译优化与图优化 🔥

深度学习编译器

章节	内容	难度
01-深度学习编译器概述	编译器架构、IR 设计	⭐⭐⭐
02-TorchDynamo与torch.compile	图捕获、编译优化	⭐⭐⭐⭐
03-XLA编译器深度解析	HLO、优化 Pass	⭐⭐⭐⭐⭐
04-算子融合与Kernel优化	融合策略、代码生成	⭐⭐⭐⭐
05-自动调度与代码生成	AutoTVM、Ansor	⭐⭐⭐⭐⭐

14-LLM 应用架构 🆕

大模型应用开发

章节	内容	难度
01-RAG系统架构	检索增强生成、向量数据库	⭐⭐⭐
02-Agent架构设计	ReAct、工具调用、记忆系统	⭐⭐⭐⭐
03-多Agent协作系统	多Agent协作、消息总线	⭐⭐⭐⭐

15-前沿技术 🆕

章节	内容	难度
01-MoE架构与训练	Mixture of Experts、负载均衡	⭐⭐⭐⭐
02-Speculative-Decoding	推测解码、Medusa	⭐⭐⭐⭐
03-多模态推理	VLM架构、视觉编码、视频理解	⭐⭐⭐⭐

16-端到端实战 🆕

完整项目实践

章节	内容	难度
01-从零搭建LLM推理服务	vLLM + FastAPI + K8s	⭐⭐⭐

核心知识图谱

                              ┌─────────────────┐
                              │   LLM 应用      │
                              │  RAG / Agent    │
                              └────────┬────────┘
                                       │
         ┌─────────────────────────────┼─────────────────────────────┐
         │                             │                             │
         ▼                             ▼                             ▼
┌─────────────────┐         ┌─────────────────┐         ┌─────────────────┐
│   MLOps 平台    │         │   推理服务      │         │   训练平台      │
│  模型管理/部署   │         │  vLLM/TGI      │         │  分布式训练     │
└────────┬────────┘         └────────┬────────┘         └────────┬────────┘
         │                           │                           │
         └───────────────────────────┼───────────────────────────┘
                                     │
                          ┌──────────┴──────────┐
                          │   AI 工作流引擎     │
                          │  Argo/Kubeflow/DAG  │
                          └──────────┬──────────┘
                                     │
                          ┌──────────┴──────────┐
                          │   Kubernetes 调度   │
                          │  GPU 调度/拓扑感知  │
                          └──────────┬──────────┘
                                     │
              ┌──────────────────────┼──────────────────────┐
              │                      │                      │
              ▼                      ▼                      ▼
    ┌─────────────────┐   ┌─────────────────┐   ┌─────────────────┐
    │   NVIDIA GPU    │   │   华为昇腾      │   │   其他加速器    │
    │  CUDA/MIG/vGPU  │   │   NPU/CANN     │   │   MLU/FPGA     │
    └─────────────────┘   └─────────────────┘   └─────────────────┘

底层技术栈:
┌─────────────────────────────────────────────────────────────────────────────┐
│  CUDA 编程  │  NCCL 通信  │  编译优化  │  框架源码  │  前沿技术            │
│  Kernel开发 │  AllReduce  │  torch.compile │ PyTorch │  MoE/Speculative   │
└─────────────────────────────────────────────────────────────────────────────┘

环境准备

本地开发环境

# 1. 安装 Docker
curl -fsSL https://get.docker.com | bash

# 2. 安装 NVIDIA Container Toolkit (如有 GPU)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
  sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit

# 3. 安装 kubectl
curl -LO "https://dl.k8s.io/release/$(curl -L -s https://dl.k8s.io/release/stable.txt)/bin/linux/amd64/kubectl"
sudo install -o root -g root -m 0755 kubectl /usr/local/bin/kubectl

# 4. 安装 Kind (本地 K8s 集群)
curl -Lo ./kind https://kind.sigs.k8s.io/dl/v0.20.0/kind-linux-amd64
chmod +x ./kind && sudo mv ./kind /usr/local/bin/kind

# 5. 安装 Helm
curl https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 | bash

学习建议

选择路径: 根据背景选择学习路径指南
循序渐进: 按照 Level 顺序学习，确保基础扎实
动手实践: 每个章节都有代码，务必亲自运行
源码阅读: 关注 vLLM、DeepSpeed、NCCL 等项目源码
面试准备: 通过面试专题巩固知识

AI Infra 深度教程

目标读者

快速开始

学习路径

目录结构

00-快速入门 🆕

01-GPU 容器化

02-Kubernetes GPU 调度

03-AI 训练平台

04-推理服务

05-异构计算

06-AI 工作流引擎

07-MLOps 实践

08-AIOps 实践

09-面试专题

10-CUDA 编程与算子开发 🔥

11-通信与网络底层 🔥

12-框架源码解析 🔥

13-编译优化与图优化 🔥

14-LLM 应用架构 🆕

15-前沿技术 🆕

16-端到端实战 🆕

核心知识图谱

环境准备

本地开发环境

推荐的云环境

学习建议

参考资源

官方文档

开源项目