HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于
  • AI 基础设施深度教程

    • AI Infra 深度教程
    • GPU容器化

      • 01-GPU 架构基础
      • NVIDIA 容器运行时
      • GPU 共享与隔离
      • GPU 监控与调试
    • Kubernetes GPU调度

      • Device Plugin 机制深度解析
      • GPU 调度器实现
      • 拓扑感知调度
      • 弹性 GPU 调度
    • AI训练平台

      • 分布式训练框架
      • 训练任务调度
      • 模型存储与管理
      • 实验管理
      • 超参数优化
    • 推理服务

      • 推理引擎原理
      • 模型服务框架
      • 动态批处理
      • 推理优化技术
      • 多模型服务
    • 异构计算

      • 05-异构计算
      • 异构计算概述
      • GPU 虚拟化技术
      • NPU 与专用 AI 芯片
      • 设备拓扑感知调度
      • 算力池化与弹性调度
    • AI工作流引擎

      • 06-AI工作流引擎
      • AI 工作流引擎概述
      • Kubeflow Pipelines 深度实践
      • 03-Argo Workflows 深度实践
      • 04-数据版本管理
      • 05-实验跟踪与模型注册
    • MLOps实践

      • 07-MLOps实践
      • 01-MLOps 成熟度模型
      • 02-数据集工程
      • 03-Feature Store 特征存储
      • 04-模型评测体系
      • 05-模型安全与治理
    • AIOps实践

      • 08-AIOps实践
      • 01-AIOps概述与架构
      • 02-异常检测算法
      • 03-根因分析与告警聚合
      • 04-智能运维决策
      • 05-AIOps平台实战
    • 面试专题

      • 09-面试专题
      • 01-AI基础设施核心面试题
      • 02-大模型面试题
      • 03-系统设计面试题
    • CUDA编程与算子开发

      • 10-CUDA 编程与算子开发
      • 01-CUDA编程模型与内存层次
      • 02-高性能 Kernel 开发实战
      • 03-Tensor Core 与矩阵运算
      • 04-算子融合与优化技术
      • 05-Triton 编程入门
    • 通信与网络底层

      • 11-通信与网络底层
      • 01-NCCL 源码深度解析
      • 02-AllReduce 算法实现
      • 03-RDMA与InfiniBand原理
      • 04-网络拓扑与通信优化
      • 05-大规模集群网络架构
    • 框架源码解析

      • 12-框架源码解析
      • 01-PyTorch分布式源码解析
      • 02-DeepSpeed源码深度解析
      • 03-Megatron-LM源码解析
      • 04-vLLM推理引擎源码解析
      • 05-HuggingFace Transformers源码解析
    • 编译优化与图优化

      • 13-编译优化与图优化
      • 01-深度学习编译器概述
      • 02-TorchDynamo与torch.compile
      • 03-XLA编译器深度解析
      • 04-算子融合与Kernel优化
      • 05-自动调度与代码生成

AI Infra 深度教程

面向 AI 基础设施工程师的完整学习路径,从 GPU 容器化到 AI 平台架构

目标读者

  • AI Infra / MLOps / AIOps 工程师
  • 云原生平台开发者
  • AI 平台 SRE
  • 希望转型 AI 基础设施领域的后端工程师

前置知识

  • Kubernetes 基础使用
  • 容器技术原理 (参考 containerTutorial)
  • Linux 系统管理
  • Python / Go 编程基础

学习路径

┌─────────────────────────────────────────────────────────────────────────┐
│                         AI Infra 学习路径                               │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│   Level 1: 基础 (1-2 周)                                                │
│   ┌─────────────────────────────────────────────────────────────────┐  │
│   │  01-GPU容器化         → GPU 架构、NVIDIA 运行时、隔离共享         │  │
│   └─────────────────────────────────────────────────────────────────┘  │
│                              │                                          │
│                              ▼                                          │
│   Level 2: 进阶 (2-3 周)                                                │
│   ┌─────────────────────────────────────────────────────────────────┐  │
│   │  02-Kubernetes-GPU调度 → Device Plugin、调度器扩展、拓扑感知     │  │
│   │  03-AI训练平台        → 分布式训练、任务调度、容错恢复            │  │
│   │  04-推理服务          → Triton、模型优化、动态批处理              │  │
│   └─────────────────────────────────────────────────────────────────┘  │
│                              │                                          │
│                              ▼                                          │
│   Level 3: 高级 (2-3 周)                                                │
│   ┌─────────────────────────────────────────────────────────────────┐  │
│   │  05-异构计算           → 多芯片适配、统一调度                      │  │
│   │  06-AI工作流引擎       → DAG 编排、Agent 工作流                    │  │
│   └─────────────────────────────────────────────────────────────────┘  │
│                              │                                          │
│                              ▼                                          │
│   Level 4: 专家 (持续)                                                  │
│   ┌─────────────────────────────────────────────────────────────────┐  │
│   │  07-MLOps实践          → 模型管理、特征工程、持续训练              │  │
│   │  08-AIOps实践          → 智能监控、故障预测、自动化运维            │  │
│   └─────────────────────────────────────────────────────────────────┘  │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

目录结构

01-GPU 容器化

GPU 基础知识与容器化技术

章节内容难度
01-GPU架构基础CUDA 架构、GPU 内存模型、计算单元⭐⭐
02-NVIDIA容器运行时nvidia-container-runtime、libnvidia-container⭐⭐
03-GPU共享与隔离MIG、vGPU、时分复用、显存隔离⭐⭐⭐
04-GPU监控与调试nvidia-smi、DCGM、GPU 指标采集⭐⭐

02-Kubernetes GPU 调度

K8s 扩展资源与 GPU 调度

章节内容难度
01-Device-Plugin机制设备插件架构、Extended Resources⭐⭐⭐
02-GPU调度器实现调度器扩展、GPU 感知调度⭐⭐⭐⭐
03-拓扑感知调度NUMA、NVLink、PCIe 拓扑⭐⭐⭐⭐
04-弹性GPU调度动态分配、抢占、弹性伸缩⭐⭐⭐

03-AI 训练平台

大规模分布式训练基础设施

章节内容难度
01-分布式训练架构数据并行、模型并行、流水线并行⭐⭐⭐
02-训练任务调度Gang Scheduling、优先级、队列管理⭐⭐⭐⭐
03-Checkpoint与恢复容错机制、断点续训、状态同步⭐⭐⭐
04-存储优化数据加载、分布式缓存、IO 优化⭐⭐⭐
05-训练监控与调优性能分析、瓶颈定位、调优策略⭐⭐⭐⭐

04-推理服务

模型服务化与在线推理

章节内容难度
01-推理服务架构Triton、TorchServe、KServe⭐⭐⭐
02-模型优化与量化TensorRT、ONNX、量化技术⭐⭐⭐⭐
03-动态批处理Batching 策略、延迟优化⭐⭐⭐
04-多模型调度模型切换、显存管理、热加载⭐⭐⭐⭐
05-推理服务自动扩缩HPA、VPA、KEDA、GPU 指标⭐⭐⭐

05-异构计算

多种 AI 加速芯片适配

章节内容难度
01-异构芯片概览NPU、TPU、FPGA、ASIC⭐⭐
02-华为昇腾适配Ascend、MindSpore、CANN⭐⭐⭐
03-寒武纪MLU适配MLU、Cambricon、CNToolkit⭐⭐⭐
04-统一调度框架多芯片资源管理、统一 API⭐⭐⭐⭐
05-算子适配与优化算子迁移、性能调优⭐⭐⭐⭐⭐

06-AI 工作流引擎

AI 任务编排与 Agent 工作流

章节内容难度
01-工作流引擎设计DAG 引擎、状态机、任务调度⭐⭐⭐
02-Argo-Workflow实践Argo 使用与扩展⭐⭐⭐
03-Kubeflow-PipelineML Pipeline 设计与实现⭐⭐⭐
04-Coze类工作流实现Agent 工作流、LLM 编排⭐⭐⭐⭐
05-工作流调度优化并行、重试、超时、资源优化⭐⭐⭐

07-MLOps 实践

机器学习生命周期管理

章节内容难度
01-模型版本管理MLflow、DVC、模型注册⭐⭐
02-特征工程平台Feature Store、特征服务⭐⭐⭐
03-模型注册与部署灰度发布、A/B 测试⭐⭐⭐
04-模型监控漂移检测、性能监控、告警⭐⭐⭐
05-端到端MLOps流水线完整案例⭐⭐⭐

08-AIOps 实践

AI 赋能运维自动化

章节内容难度
01-智能监控系统异常检测、根因分析⭐⭐⭐
02-日志分析平台日志聚类、异常识别⭐⭐⭐
03-故障预测时序预测、告警收敛⭐⭐⭐⭐
04-自动化运维ChatOps、自愈系统⭐⭐⭐
05-容量规划资源预测、成本优化⭐⭐⭐

09-面试专题

AI Infra 面试准备

章节内容难度
01-AI-Infra面试题高频题目汇总⭐⭐⭐
02-系统设计题架构设计、容量估算⭐⭐⭐⭐
03-场景问题解析实战场景、问题排查⭐⭐⭐⭐

核心知识图谱

                              ┌─────────────────┐
                              │   AI Application │
                              └────────┬────────┘
                                       │
         ┌─────────────────────────────┼─────────────────────────────┐
         │                             │                             │
         ▼                             ▼                             ▼
┌─────────────────┐         ┌─────────────────┐         ┌─────────────────┐
│   MLOps 平台    │         │   推理服务      │         │   训练平台      │
│  模型管理/部署   │         │  Triton/KServe  │         │  分布式训练     │
└────────┬────────┘         └────────┬────────┘         └────────┬────────┘
         │                           │                           │
         └───────────────────────────┼───────────────────────────┘
                                     │
                          ┌──────────┴──────────┐
                          │   AI 工作流引擎     │
                          │  Argo/Kubeflow/DAG  │
                          └──────────┬──────────┘
                                     │
                          ┌──────────┴──────────┐
                          │   Kubernetes 调度   │
                          │  GPU 调度/拓扑感知  │
                          └──────────┬──────────┘
                                     │
              ┌──────────────────────┼──────────────────────┐
              │                      │                      │
              ▼                      ▼                      ▼
    ┌─────────────────┐   ┌─────────────────┐   ┌─────────────────┐
    │   NVIDIA GPU    │   │   华为昇腾      │   │   其他加速器    │
    │  CUDA/MIG/vGPU  │   │   NPU/CANN     │   │   MLU/FPGA     │
    └─────────────────┘   └─────────────────┘   └─────────────────┘

环境准备

本地开发环境

# 1. 安装 Docker
curl -fsSL https://get.docker.com | bash

# 2. 安装 NVIDIA Container Toolkit (如有 GPU)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
  sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit

# 3. 安装 kubectl
curl -LO "https://dl.k8s.io/release/$(curl -L -s https://dl.k8s.io/release/stable.txt)/bin/linux/amd64/kubectl"
sudo install -o root -g root -m 0755 kubectl /usr/local/bin/kubectl

# 4. 安装 Kind (本地 K8s 集群)
curl -Lo ./kind https://kind.sigs.k8s.io/dl/v0.20.0/kind-linux-amd64
chmod +x ./kind && sudo mv ./kind /usr/local/bin/kind

# 5. 安装 Helm
curl https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 | bash

推荐的云环境

  • AWS: EKS + P4d/P5 实例 (A100/H100)
  • 阿里云: ACK + GPU 云服务器
  • 华为云: CCE + 昇腾集群

学习建议

  1. 循序渐进: 按照 Level 顺序学习,确保基础扎实
  2. 动手实践: 每个章节都有实验,务必亲自操作
  3. 源码阅读: 关注 NVIDIA device plugin、Kubernetes scheduler 等项目源码
  4. 关注社区: 跟踪 KubeFlow、MLflow、Triton 等项目最新动态
  5. 面试准备: 学习完后通过面试专题巩固知识

参考资源

官方文档

  • NVIDIA Container Toolkit
  • Kubernetes Device Plugins
  • Kubeflow
  • Triton Inference Server

开源项目

  • nvidia-device-plugin
  • volcano - 批处理调度
  • kueue - 队列管理
  • gpushare-scheduler-extender

技术博客

  • NVIDIA Developer Blog
  • 阿里云 AI Infra 博客

开始你的 AI Infra 学习之旅!