AI Infra 深度教程
面向 AI 基础设施工程师的完整学习路径,从 GPU 容器化到大模型应用架构
目标读者
- AI Infra / MLOps / AIOps 工程师
- 云原生平台开发者
- AI 平台 SRE
- 希望转型 AI 基础设施领域的后端工程师
- 算法工程师(希望深入了解底层基础设施)
快速开始
新手入门 → 00-快速入门/01-学习路径指南
根据你的背景选择学习路径:
- 后端工程师 → 从 GPU 容器化开始
- 算法工程师 → 从 CUDA 编程开始
- 应届生/转行 → 从前置知识速览开始
学习路径
┌─────────────────────────────────────────────────────────────────────────────┐
│ AI Infra 学习路径 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ Level 0: 入门 (可选) │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 00-快速入门 → 学习路径指南、前置知识速览 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ Level 1: 基础 (1-2 周) │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 01-GPU容器化 → GPU 架构、NVIDIA 运行时、隔离共享 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ Level 2: 核心 (2-3 周) │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 02-Kubernetes-GPU调度 → Device Plugin、调度器扩展、拓扑感知 │ │
│ │ 03-AI训练平台 → 分布式训练、任务调度、容错恢复 │ │
│ │ 04-推理服务 → Triton、模型优化、动态批处理 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ Level 3: 高级 (2-3 周) │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 05-异构计算 → 多芯片适配、统一调度 │ │
│ │ 06-AI工作流引擎 → DAG 编排、Agent 工作流 │ │
│ │ 07-MLOps实践 → 模型管理、特征工程、持续训练 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ Level 4: 专家 (持续) │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 10-CUDA编程 → 内存层次、Kernel开发、TensorCore │ │
│ │ 11-通信与网络 → NCCL源码、AllReduce、RDMA │ │
│ │ 12-框架源码解析 → PyTorch、DeepSpeed、vLLM │ │
│ │ 13-编译优化 → TorchDynamo、XLA、算子融合 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ Level 5: 前沿 (持续) │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 14-LLM应用架构 → RAG、Agent、多Agent协作 │ │
│ │ 15-前沿技术 → MoE、Speculative Decoding、多模态 │ │
│ │ 16-端到端实战 → 从零搭建 LLM 推理服务 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
目录结构
00-快速入门 🆕
新手必读,学习路径规划
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-学习路径指南 | 不同背景读者的学习路径 | ⭐ |
| 02-前置知识速览 | 深度学习、GPU、K8s 基础 | ⭐ |
01-GPU 容器化
GPU 基础知识与容器化技术
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-GPU架构基础 | CUDA 架构、GPU 内存模型、计算单元 | ⭐⭐ |
| 02-NVIDIA容器运行时 | nvidia-container-runtime、libnvidia-container | ⭐⭐ |
| 03-GPU共享与隔离 | MIG、vGPU、时分复用、显存隔离 | ⭐⭐⭐ |
| 04-GPU监控与调试 | nvidia-smi、DCGM、GPU 指标采集 | ⭐⭐ |
02-Kubernetes GPU 调度
K8s 扩展资源与 GPU 调度
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-Device-Plugin机制 | 设备插件架构、Extended Resources | ⭐⭐⭐ |
| 02-GPU调度器实现 | 调度器扩展、GPU 感知调度 | ⭐⭐⭐⭐ |
| 03-拓扑感知调度 | NUMA、NVLink、PCIe 拓扑 | ⭐⭐⭐⭐ |
| 04-弹性GPU调度 | 动态分配、抢占、弹性伸缩 | ⭐⭐⭐ |
03-AI 训练平台
大规模分布式训练基础设施
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-分布式训练框架 | 数据并行、模型并行、流水线并行 | ⭐⭐⭐ |
| 02-训练任务调度 | Gang Scheduling、优先级、队列管理 | ⭐⭐⭐⭐ |
| 03-模型存储与管理 | Checkpoint、模型版本、分布式存储 | ⭐⭐⭐ |
| 04-实验管理 | 实验追踪、参数管理、结果对比 | ⭐⭐ |
| 05-超参数优化 | HPO 算法、AutoML 集成 | ⭐⭐⭐ |
04-推理服务
模型服务化与在线推理
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-推理引擎原理 | TensorRT、ONNX Runtime 原理 | ⭐⭐⭐ |
| 02-模型服务框架 | Triton、TorchServe、KServe | ⭐⭐⭐ |
| 03-动态批处理 | Batching 策略、Continuous Batching | ⭐⭐⭐ |
| 04-推理优化技术 | 量化、剪枝、KV Cache、FlashAttention | ⭐⭐⭐⭐ |
| 05-多模型服务 | 模型切换、显存管理、热加载 | ⭐⭐⭐ |
05-异构计算
多种 AI 加速芯片适配
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-异构计算概述 | NPU、TPU、FPGA、ASIC | ⭐⭐ |
| 02-GPU虚拟化技术 | MIG、vGPU、GPU 池化 | ⭐⭐⭐ |
| 03-NPU与专用芯片 | 昇腾、寒武纪、TPU | ⭐⭐⭐ |
| 04-设备拓扑感知调度 | 多芯片拓扑、统一调度 | ⭐⭐⭐⭐ |
| 05-算力池化与弹性调度 | 资源池化、弹性伸缩 | ⭐⭐⭐⭐ |
06-AI 工作流引擎
AI 任务编排与流水线
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-工作流引擎概述 | DAG 引擎、状态机、任务调度 | ⭐⭐⭐ |
| 02-Kubeflow-Pipelines | Kubeflow 使用与扩展 | ⭐⭐⭐ |
| 03-Argo-Workflows | Argo 使用与实践 | ⭐⭐⭐ |
| 04-数据版本管理 | DVC、数据血缘 | ⭐⭐ |
| 05-实验跟踪与模型注册 | MLflow、模型仓库 | ⭐⭐⭐ |
07-MLOps 实践
机器学习生命周期管理
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-MLOps成熟度模型 | MLOps 演进阶段 | ⭐⭐ |
| 02-数据集工程 | 数据管理、标注、质量 | ⭐⭐⭐ |
| 03-Feature-Store | 特征工程、特征服务 | ⭐⭐⭐ |
| 04-模型评测体系 | 评估指标、测试框架 | ⭐⭐⭐ |
| 05-模型安全与治理 | 模型安全、合规治理 | ⭐⭐⭐ |
| 06-LLM安全与防护 | Prompt注入防护、内容安全、对齐 | ⭐⭐⭐⭐ |
08-AIOps 实践
AI 赋能运维自动化
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-AIOps概述与架构 | AIOps 体系架构 | ⭐⭐ |
| 02-异常检测算法 | 时序异常、日志异常 | ⭐⭐⭐ |
| 03-根因分析与告警聚合 | 根因定位、告警降噪 | ⭐⭐⭐⭐ |
| 04-智能运维决策 | 自愈系统、决策引擎 | ⭐⭐⭐ |
| 05-AIOps平台实战 | 完整平台案例 | ⭐⭐⭐ |
09-面试专题
AI Infra 面试准备
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-AI基础设施核心面试题 | GPU、分布式、推理等核心题 | ⭐⭐⭐ |
| 02-大模型面试题 | LLM 训练、推理优化 | ⭐⭐⭐⭐ |
| 03-系统设计面试题 | 架构设计、容量估算 | ⭐⭐⭐⭐ |
10-CUDA 编程与算子开发 🔥
GPU 编程进阶
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-CUDA编程模型与内存层次 | Grid/Block/Thread、内存类型 | ⭐⭐⭐ |
| 02-高性能Kernel开发实战 | 优化技巧、Profile 分析 | ⭐⭐⭐⭐ |
| 03-TensorCore与矩阵运算 | WMMA、矩阵乘加速 | ⭐⭐⭐⭐ |
| 04-算子融合与优化技术 | Kernel 融合、FlashAttention | ⭐⭐⭐⭐⭐ |
| 05-Triton编程入门 | Python 写 GPU Kernel | ⭐⭐⭐ |
11-通信与网络底层 🔥
分布式通信深度解析
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-NCCL源码深度解析 | 通信原语、Ring/Tree 算法 | ⭐⭐⭐⭐⭐ |
| 02-AllReduce算法实现 | Ring、Tree、Recursive Halving | ⭐⭐⭐⭐ |
| 03-RDMA与InfiniBand原理 | 高速网络、RDMA 编程 | ⭐⭐⭐⭐ |
| 04-网络拓扑与通信优化 | 拓扑感知、通信优化 | ⭐⭐⭐⭐ |
| 05-大规模集群网络架构 | 万卡集群网络设计 | ⭐⭐⭐⭐⭐ |
12-框架源码解析 🔥
主流框架深度解析
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-PyTorch分布式源码解析 | DDP、FSDP 实现 | ⭐⭐⭐⭐ |
| 02-DeepSpeed源码深度解析 | ZeRO、Offload 实现 | ⭐⭐⭐⭐⭐ |
| 03-Megatron-LM源码解析 | TP/PP/SP 实现 | ⭐⭐⭐⭐⭐ |
| 04-vLLM推理引擎源码解析 | PagedAttention、Scheduling | ⭐⭐⭐⭐⭐ |
| 05-HuggingFace-Transformers源码解析 | 模型加载、生成逻辑 | ⭐⭐⭐⭐ |
13-编译优化与图优化 🔥
深度学习编译器
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-深度学习编译器概述 | 编译器架构、IR 设计 | ⭐⭐⭐ |
| 02-TorchDynamo与torch.compile | 图捕获、编译优化 | ⭐⭐⭐⭐ |
| 03-XLA编译器深度解析 | HLO、优化 Pass | ⭐⭐⭐⭐⭐ |
| 04-算子融合与Kernel优化 | 融合策略、代码生成 | ⭐⭐⭐⭐ |
| 05-自动调度与代码生成 | AutoTVM、Ansor | ⭐⭐⭐⭐⭐ |
14-LLM 应用架构 🆕
大模型应用开发
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-RAG系统架构 | 检索增强生成、向量数据库 | ⭐⭐⭐ |
| 02-Agent架构设计 | ReAct、工具调用、记忆系统 | ⭐⭐⭐⭐ |
| 03-多Agent协作系统 | 多Agent协作、消息总线 | ⭐⭐⭐⭐ |
15-前沿技术 🆕
最新技术趋势
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-MoE架构与训练 | Mixture of Experts、负载均衡 | ⭐⭐⭐⭐ |
| 02-Speculative-Decoding | 推测解码、Medusa | ⭐⭐⭐⭐ |
| 03-多模态推理 | VLM架构、视觉编码、视频理解 | ⭐⭐⭐⭐ |
16-端到端实战 🆕
完整项目实践
| 章节 | 内容 | 难度 |
|---|---|---|
| 01-从零搭建LLM推理服务 | vLLM + FastAPI + K8s | ⭐⭐⭐ |
核心知识图谱
┌─────────────────┐
│ LLM 应用 │
│ RAG / Agent │
└────────┬────────┘
│
┌─────────────────────────────┼─────────────────────────────┐
│ │ │
▼ ▼ ▼
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ MLOps 平台 │ │ 推理服务 │ │ 训练平台 │
│ 模型管理/部署 │ │ vLLM/TGI │ │ 分布式训练 │
└────────┬────────┘ └────────┬────────┘ └────────┬────────┘
│ │ │
└───────────────────────────┼───────────────────────────┘
│
┌──────────┴──────────┐
│ AI 工作流引擎 │
│ Argo/Kubeflow/DAG │
└──────────┬──────────┘
│
┌──────────┴──────────┐
│ Kubernetes 调度 │
│ GPU 调度/拓扑感知 │
└──────────┬──────────┘
│
┌──────────────────────┼──────────────────────┐
│ │ │
▼ ▼ ▼
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ NVIDIA GPU │ │ 华为昇腾 │ │ 其他加速器 │
│ CUDA/MIG/vGPU │ │ NPU/CANN │ │ MLU/FPGA │
└─────────────────┘ └─────────────────┘ └─────────────────┘
底层技术栈:
┌─────────────────────────────────────────────────────────────────────────────┐
│ CUDA 编程 │ NCCL 通信 │ 编译优化 │ 框架源码 │ 前沿技术 │
│ Kernel开发 │ AllReduce │ torch.compile │ PyTorch │ MoE/Speculative │
└─────────────────────────────────────────────────────────────────────────────┘
环境准备
本地开发环境
# 1. 安装 Docker
curl -fsSL https://get.docker.com | bash
# 2. 安装 NVIDIA Container Toolkit (如有 GPU)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
# 3. 安装 kubectl
curl -LO "https://dl.k8s.io/release/$(curl -L -s https://dl.k8s.io/release/stable.txt)/bin/linux/amd64/kubectl"
sudo install -o root -g root -m 0755 kubectl /usr/local/bin/kubectl
# 4. 安装 Kind (本地 K8s 集群)
curl -Lo ./kind https://kind.sigs.k8s.io/dl/v0.20.0/kind-linux-amd64
chmod +x ./kind && sudo mv ./kind /usr/local/bin/kind
# 5. 安装 Helm
curl https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 | bash
推荐的云环境
- AWS: EKS + P4d/P5 实例 (A100/H100)
- 阿里云: ACK + GPU 云服务器
- 华为云: CCE + 昇腾集群
学习建议
- 选择路径: 根据背景选择 学习路径指南
- 循序渐进: 按照 Level 顺序学习,确保基础扎实
- 动手实践: 每个章节都有代码,务必亲自运行
- 源码阅读: 关注 vLLM、DeepSpeed、NCCL 等项目源码
- 面试准备: 通过面试专题巩固知识
参考资源
官方文档
开源项目
开始你的 AI Infra 学习之旅!