HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于
  • AI 基础设施深度教程

    • AI Infra 深度教程
    • GPU容器化

      • 01-GPU 架构基础
      • NVIDIA 容器运行时
      • GPU 共享与隔离
      • GPU 监控与调试
    • Kubernetes GPU调度

      • Device Plugin 机制深度解析
      • GPU 调度器实现
      • 拓扑感知调度
      • 弹性 GPU 调度
    • AI训练平台

      • 分布式训练框架
      • 训练任务调度
      • 模型存储与管理
      • 实验管理
      • 超参数优化
    • 推理服务

      • 推理引擎原理
      • 模型服务框架
      • 动态批处理
      • 推理优化技术
      • 多模型服务
    • 异构计算

      • 05-异构计算
      • 异构计算概述
      • GPU 虚拟化技术
      • NPU 与专用 AI 芯片
      • 设备拓扑感知调度
      • 算力池化与弹性调度
    • AI工作流引擎

      • 06-AI工作流引擎
      • AI 工作流引擎概述
      • Kubeflow Pipelines 深度实践
      • 03-Argo Workflows 深度实践
      • 04-数据版本管理
      • 05-实验跟踪与模型注册
    • MLOps实践

      • 07-MLOps实践
      • 01-MLOps 成熟度模型
      • 02-数据集工程
      • 03-Feature Store 特征存储
      • 04-模型评测体系
      • 05-模型安全与治理
    • AIOps实践

      • 08-AIOps实践
      • 01-AIOps概述与架构
      • 02-异常检测算法
      • 03-根因分析与告警聚合
      • 04-智能运维决策
      • 05-AIOps平台实战
    • 面试专题

      • 09-面试专题
      • 01-AI基础设施核心面试题
      • 02-大模型面试题
      • 03-系统设计面试题
    • CUDA编程与算子开发

      • 10-CUDA 编程与算子开发
      • 01-CUDA编程模型与内存层次
      • 02-高性能 Kernel 开发实战
      • 03-Tensor Core 与矩阵运算
      • 04-算子融合与优化技术
      • 05-Triton 编程入门
    • 通信与网络底层

      • 11-通信与网络底层
      • 01-NCCL 源码深度解析
      • 02-AllReduce 算法实现
      • 03-RDMA与InfiniBand原理
      • 04-网络拓扑与通信优化
      • 05-大规模集群网络架构
    • 框架源码解析

      • 12-框架源码解析
      • 01-PyTorch分布式源码解析
      • 02-DeepSpeed源码深度解析
      • 03-Megatron-LM源码解析
      • 04-vLLM推理引擎源码解析
      • 05-HuggingFace Transformers源码解析
    • 编译优化与图优化

      • 13-编译优化与图优化
      • 01-深度学习编译器概述
      • 02-TorchDynamo与torch.compile
      • 03-XLA编译器深度解析
      • 04-算子融合与Kernel优化
      • 05-自动调度与代码生成

AI Infra 深度教程

面向 AI 基础设施工程师的完整学习路径,从 GPU 容器化到大模型应用架构

目标读者

  • AI Infra / MLOps / AIOps 工程师
  • 云原生平台开发者
  • AI 平台 SRE
  • 希望转型 AI 基础设施领域的后端工程师
  • 算法工程师(希望深入了解底层基础设施)

快速开始

新手入门 → 00-快速入门/01-学习路径指南

根据你的背景选择学习路径:

  • 后端工程师 → 从 GPU 容器化开始
  • 算法工程师 → 从 CUDA 编程开始
  • 应届生/转行 → 从前置知识速览开始

学习路径

┌─────────────────────────────────────────────────────────────────────────────┐
│                         AI Infra 学习路径                                    │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│   Level 0: 入门 (可选)                                                      │
│   ┌─────────────────────────────────────────────────────────────────────┐  │
│   │  00-快速入门         → 学习路径指南、前置知识速览                      │  │
│   └─────────────────────────────────────────────────────────────────────┘  │
│                              │                                              │
│                              ▼                                              │
│   Level 1: 基础 (1-2 周)                                                    │
│   ┌─────────────────────────────────────────────────────────────────────┐  │
│   │  01-GPU容器化         → GPU 架构、NVIDIA 运行时、隔离共享             │  │
│   └─────────────────────────────────────────────────────────────────────┘  │
│                              │                                              │
│                              ▼                                              │
│   Level 2: 核心 (2-3 周)                                                    │
│   ┌─────────────────────────────────────────────────────────────────────┐  │
│   │  02-Kubernetes-GPU调度 → Device Plugin、调度器扩展、拓扑感知          │  │
│   │  03-AI训练平台        → 分布式训练、任务调度、容错恢复                 │  │
│   │  04-推理服务          → Triton、模型优化、动态批处理                   │  │
│   └─────────────────────────────────────────────────────────────────────┘  │
│                              │                                              │
│                              ▼                                              │
│   Level 3: 高级 (2-3 周)                                                    │
│   ┌─────────────────────────────────────────────────────────────────────┐  │
│   │  05-异构计算           → 多芯片适配、统一调度                          │  │
│   │  06-AI工作流引擎       → DAG 编排、Agent 工作流                        │  │
│   │  07-MLOps实践          → 模型管理、特征工程、持续训练                  │  │
│   └─────────────────────────────────────────────────────────────────────┘  │
│                              │                                              │
│                              ▼                                              │
│   Level 4: 专家 (持续)                                                      │
│   ┌─────────────────────────────────────────────────────────────────────┐  │
│   │  10-CUDA编程           → 内存层次、Kernel开发、TensorCore              │  │
│   │  11-通信与网络         → NCCL源码、AllReduce、RDMA                     │  │
│   │  12-框架源码解析       → PyTorch、DeepSpeed、vLLM                      │  │
│   │  13-编译优化           → TorchDynamo、XLA、算子融合                    │  │
│   └─────────────────────────────────────────────────────────────────────┘  │
│                              │                                              │
│                              ▼                                              │
│   Level 5: 前沿 (持续)                                                      │
│   ┌─────────────────────────────────────────────────────────────────────┐  │
│   │  14-LLM应用架构        → RAG、Agent、多Agent协作                       │  │
│   │  15-前沿技术           → MoE、Speculative Decoding、多模态             │  │
│   │  16-端到端实战         → 从零搭建 LLM 推理服务                         │  │
│   └─────────────────────────────────────────────────────────────────────┘  │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

目录结构

00-快速入门 🆕

新手必读,学习路径规划

章节内容难度
01-学习路径指南不同背景读者的学习路径⭐
02-前置知识速览深度学习、GPU、K8s 基础⭐

01-GPU 容器化

GPU 基础知识与容器化技术

章节内容难度
01-GPU架构基础CUDA 架构、GPU 内存模型、计算单元⭐⭐
02-NVIDIA容器运行时nvidia-container-runtime、libnvidia-container⭐⭐
03-GPU共享与隔离MIG、vGPU、时分复用、显存隔离⭐⭐⭐
04-GPU监控与调试nvidia-smi、DCGM、GPU 指标采集⭐⭐

02-Kubernetes GPU 调度

K8s 扩展资源与 GPU 调度

章节内容难度
01-Device-Plugin机制设备插件架构、Extended Resources⭐⭐⭐
02-GPU调度器实现调度器扩展、GPU 感知调度⭐⭐⭐⭐
03-拓扑感知调度NUMA、NVLink、PCIe 拓扑⭐⭐⭐⭐
04-弹性GPU调度动态分配、抢占、弹性伸缩⭐⭐⭐

03-AI 训练平台

大规模分布式训练基础设施

章节内容难度
01-分布式训练框架数据并行、模型并行、流水线并行⭐⭐⭐
02-训练任务调度Gang Scheduling、优先级、队列管理⭐⭐⭐⭐
03-模型存储与管理Checkpoint、模型版本、分布式存储⭐⭐⭐
04-实验管理实验追踪、参数管理、结果对比⭐⭐
05-超参数优化HPO 算法、AutoML 集成⭐⭐⭐

04-推理服务

模型服务化与在线推理

章节内容难度
01-推理引擎原理TensorRT、ONNX Runtime 原理⭐⭐⭐
02-模型服务框架Triton、TorchServe、KServe⭐⭐⭐
03-动态批处理Batching 策略、Continuous Batching⭐⭐⭐
04-推理优化技术量化、剪枝、KV Cache、FlashAttention⭐⭐⭐⭐
05-多模型服务模型切换、显存管理、热加载⭐⭐⭐

05-异构计算

多种 AI 加速芯片适配

章节内容难度
01-异构计算概述NPU、TPU、FPGA、ASIC⭐⭐
02-GPU虚拟化技术MIG、vGPU、GPU 池化⭐⭐⭐
03-NPU与专用芯片昇腾、寒武纪、TPU⭐⭐⭐
04-设备拓扑感知调度多芯片拓扑、统一调度⭐⭐⭐⭐
05-算力池化与弹性调度资源池化、弹性伸缩⭐⭐⭐⭐

06-AI 工作流引擎

AI 任务编排与流水线

章节内容难度
01-工作流引擎概述DAG 引擎、状态机、任务调度⭐⭐⭐
02-Kubeflow-PipelinesKubeflow 使用与扩展⭐⭐⭐
03-Argo-WorkflowsArgo 使用与实践⭐⭐⭐
04-数据版本管理DVC、数据血缘⭐⭐
05-实验跟踪与模型注册MLflow、模型仓库⭐⭐⭐

07-MLOps 实践

机器学习生命周期管理

章节内容难度
01-MLOps成熟度模型MLOps 演进阶段⭐⭐
02-数据集工程数据管理、标注、质量⭐⭐⭐
03-Feature-Store特征工程、特征服务⭐⭐⭐
04-模型评测体系评估指标、测试框架⭐⭐⭐
05-模型安全与治理模型安全、合规治理⭐⭐⭐
06-LLM安全与防护Prompt注入防护、内容安全、对齐⭐⭐⭐⭐

08-AIOps 实践

AI 赋能运维自动化

章节内容难度
01-AIOps概述与架构AIOps 体系架构⭐⭐
02-异常检测算法时序异常、日志异常⭐⭐⭐
03-根因分析与告警聚合根因定位、告警降噪⭐⭐⭐⭐
04-智能运维决策自愈系统、决策引擎⭐⭐⭐
05-AIOps平台实战完整平台案例⭐⭐⭐

09-面试专题

AI Infra 面试准备

章节内容难度
01-AI基础设施核心面试题GPU、分布式、推理等核心题⭐⭐⭐
02-大模型面试题LLM 训练、推理优化⭐⭐⭐⭐
03-系统设计面试题架构设计、容量估算⭐⭐⭐⭐

10-CUDA 编程与算子开发 🔥

GPU 编程进阶

章节内容难度
01-CUDA编程模型与内存层次Grid/Block/Thread、内存类型⭐⭐⭐
02-高性能Kernel开发实战优化技巧、Profile 分析⭐⭐⭐⭐
03-TensorCore与矩阵运算WMMA、矩阵乘加速⭐⭐⭐⭐
04-算子融合与优化技术Kernel 融合、FlashAttention⭐⭐⭐⭐⭐
05-Triton编程入门Python 写 GPU Kernel⭐⭐⭐

11-通信与网络底层 🔥

分布式通信深度解析

章节内容难度
01-NCCL源码深度解析通信原语、Ring/Tree 算法⭐⭐⭐⭐⭐
02-AllReduce算法实现Ring、Tree、Recursive Halving⭐⭐⭐⭐
03-RDMA与InfiniBand原理高速网络、RDMA 编程⭐⭐⭐⭐
04-网络拓扑与通信优化拓扑感知、通信优化⭐⭐⭐⭐
05-大规模集群网络架构万卡集群网络设计⭐⭐⭐⭐⭐

12-框架源码解析 🔥

主流框架深度解析

章节内容难度
01-PyTorch分布式源码解析DDP、FSDP 实现⭐⭐⭐⭐
02-DeepSpeed源码深度解析ZeRO、Offload 实现⭐⭐⭐⭐⭐
03-Megatron-LM源码解析TP/PP/SP 实现⭐⭐⭐⭐⭐
04-vLLM推理引擎源码解析PagedAttention、Scheduling⭐⭐⭐⭐⭐
05-HuggingFace-Transformers源码解析模型加载、生成逻辑⭐⭐⭐⭐

13-编译优化与图优化 🔥

深度学习编译器

章节内容难度
01-深度学习编译器概述编译器架构、IR 设计⭐⭐⭐
02-TorchDynamo与torch.compile图捕获、编译优化⭐⭐⭐⭐
03-XLA编译器深度解析HLO、优化 Pass⭐⭐⭐⭐⭐
04-算子融合与Kernel优化融合策略、代码生成⭐⭐⭐⭐
05-自动调度与代码生成AutoTVM、Ansor⭐⭐⭐⭐⭐

14-LLM 应用架构 🆕

大模型应用开发

章节内容难度
01-RAG系统架构检索增强生成、向量数据库⭐⭐⭐
02-Agent架构设计ReAct、工具调用、记忆系统⭐⭐⭐⭐
03-多Agent协作系统多Agent协作、消息总线⭐⭐⭐⭐

15-前沿技术 🆕

最新技术趋势

章节内容难度
01-MoE架构与训练Mixture of Experts、负载均衡⭐⭐⭐⭐
02-Speculative-Decoding推测解码、Medusa⭐⭐⭐⭐
03-多模态推理VLM架构、视觉编码、视频理解⭐⭐⭐⭐

16-端到端实战 🆕

完整项目实践

章节内容难度
01-从零搭建LLM推理服务vLLM + FastAPI + K8s⭐⭐⭐

核心知识图谱

                              ┌─────────────────┐
                              │   LLM 应用      │
                              │  RAG / Agent    │
                              └────────┬────────┘
                                       │
         ┌─────────────────────────────┼─────────────────────────────┐
         │                             │                             │
         ▼                             ▼                             ▼
┌─────────────────┐         ┌─────────────────┐         ┌─────────────────┐
│   MLOps 平台    │         │   推理服务      │         │   训练平台      │
│  模型管理/部署   │         │  vLLM/TGI      │         │  分布式训练     │
└────────┬────────┘         └────────┬────────┘         └────────┬────────┘
         │                           │                           │
         └───────────────────────────┼───────────────────────────┘
                                     │
                          ┌──────────┴──────────┐
                          │   AI 工作流引擎     │
                          │  Argo/Kubeflow/DAG  │
                          └──────────┬──────────┘
                                     │
                          ┌──────────┴──────────┐
                          │   Kubernetes 调度   │
                          │  GPU 调度/拓扑感知  │
                          └──────────┬──────────┘
                                     │
              ┌──────────────────────┼──────────────────────┐
              │                      │                      │
              ▼                      ▼                      ▼
    ┌─────────────────┐   ┌─────────────────┐   ┌─────────────────┐
    │   NVIDIA GPU    │   │   华为昇腾      │   │   其他加速器    │
    │  CUDA/MIG/vGPU  │   │   NPU/CANN     │   │   MLU/FPGA     │
    └─────────────────┘   └─────────────────┘   └─────────────────┘

底层技术栈:
┌─────────────────────────────────────────────────────────────────────────────┐
│  CUDA 编程  │  NCCL 通信  │  编译优化  │  框架源码  │  前沿技术            │
│  Kernel开发 │  AllReduce  │  torch.compile │ PyTorch │  MoE/Speculative   │
└─────────────────────────────────────────────────────────────────────────────┘

环境准备

本地开发环境

# 1. 安装 Docker
curl -fsSL https://get.docker.com | bash

# 2. 安装 NVIDIA Container Toolkit (如有 GPU)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
  sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit

# 3. 安装 kubectl
curl -LO "https://dl.k8s.io/release/$(curl -L -s https://dl.k8s.io/release/stable.txt)/bin/linux/amd64/kubectl"
sudo install -o root -g root -m 0755 kubectl /usr/local/bin/kubectl

# 4. 安装 Kind (本地 K8s 集群)
curl -Lo ./kind https://kind.sigs.k8s.io/dl/v0.20.0/kind-linux-amd64
chmod +x ./kind && sudo mv ./kind /usr/local/bin/kind

# 5. 安装 Helm
curl https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 | bash

推荐的云环境

  • AWS: EKS + P4d/P5 实例 (A100/H100)
  • 阿里云: ACK + GPU 云服务器
  • 华为云: CCE + 昇腾集群

学习建议

  1. 选择路径: 根据背景选择 学习路径指南
  2. 循序渐进: 按照 Level 顺序学习,确保基础扎实
  3. 动手实践: 每个章节都有代码,务必亲自运行
  4. 源码阅读: 关注 vLLM、DeepSpeed、NCCL 等项目源码
  5. 面试准备: 通过面试专题巩固知识

参考资源

官方文档

  • NVIDIA Container Toolkit
  • Kubernetes Device Plugins
  • vLLM Documentation
  • DeepSpeed

开源项目

  • vLLM - 高性能 LLM 推理
  • DeepSpeed - 分布式训练
  • NCCL - GPU 集合通信
  • volcano - 批处理调度

开始你的 AI Infra 学习之旅!