05-异构计算
本章深入探讨 AI 基础设施中的异构计算管理,包括多种加速器的统一调度、GPU 虚拟化、专用 AI 芯片集成以及算力池化技术。
目录
01-异构计算概述
- AI 加速器生态全景
- GPU vs NPU vs TPU 对比
- 异构资源抽象模型
- 统一调度框架设计
- 拓扑管理与发现
02-GPU虚拟化技术
- GPU 虚拟化原理与层次
- NVIDIA MIG 技术详解
- GPU 时间片共享
- vGPU 与 HAMi 方案
- 显存虚拟化与池化
- 性能监控与优化
03-NPU与专用芯片
- AI 芯片生态对比
- 华为昇腾架构与集成
- Intel Gaudi 特点与部署
- Google TPU GKE 集成
- 多芯片统一管理抽象
- 芯片选择决策指南
04-设备拓扑感知调度
- GPU 服务器拓扑分析
- 拓扑距离矩阵计算
- Kubernetes 拓扑感知调度器
- 跨节点拓扑优化
- NUMA 亲和性管理
- 集群级调度优化
05-算力池化与弹性调度
- 算力池化架构设计
- 资源抽象与池管理
- 弹性调度系统实现
- 队列管理与优先级
- 远程 GPU 访问 (rGPU)
- 监控计费系统
核心概念
异构计算
指在同一系统中使用不同类型的处理器(CPU、GPU、NPU、TPU 等)协同工作,充分发挥各类处理器的优势。
GPU 虚拟化
将物理 GPU 资源划分为多个虚拟实例,实现多任务共享,提高资源利用率。主要技术包括:
- MIG:硬件级分区,提供真正的资源隔离
- 时间片:软件级共享,适合轻量级工作负载
- vGPU:灵活的显存和算力分配
拓扑感知调度
根据加速器之间的互联拓扑(NVLink、NVSwitch、HCCS 等)和 NUMA 亲和性,优化任务放置,最大化通信效率。
算力池化
将分散的加速器资源统一管理,实现:
- 资源的逻辑聚合
- 按需弹性分配
- 多租户隔离
- 统一计量计费
技术栈
┌─────────────────────────────────────────────────────────────┐
│ 应用层 │
│ PyTorch │ TensorFlow │ MindSpore │ JAX │
├─────────────────────────────────────────────────────────────┤
│ 调度层 │
│ Kubernetes │ Volcano │ Yunikorn │ 自定义调度器 │
├─────────────────────────────────────────────────────────────┤
│ 虚拟化层 │
│ MIG │ Time-Slicing │ HAMi │ gpushare │ rGPU │
├─────────────────────────────────────────────────────────────┤
│ 设备层 │
│ NVIDIA GPU │ AMD GPU │ 昇腾 NPU │ Gaudi │ TPU │
└─────────────────────────────────────────────────────────────┘
学习路径
基础概念 ──► GPU虚拟化 ──► 专用芯片 ──► 拓扑调度 ──► 算力池化
│ │ │ │ │
▼ ▼ ▼ ▼ ▼
加速器对比 MIG配置 昇腾/Gaudi NUMA优化 弹性调度
资源抽象 时间片 TPU集成 集群拓扑 队列管理
关键技能
学完本章,你将掌握:
多加速器管理
- 理解不同 AI 芯片的特点
- 设计统一的资源抽象
- 实现多芯片混合调度
GPU 虚拟化
- 配置 MIG 分区策略
- 实现时间片共享
- 部署 vGPU 方案
拓扑优化
- 分析 GPU 互联拓扑
- 实现拓扑感知调度
- 优化 NUMA 亲和性
算力池化
- 设计资源池架构
- 实现弹性调度
- 构建计量计费系统
实践项目
MIG 配置管理工具
- 自动化 MIG 分区配置
- 动态调整策略
- 监控与告警
拓扑感知调度器
- 拓扑发现与分析
- 最优 GPU 选择
- Kubernetes 集成
算力池化平台
- 资源池管理
- 多租户配额
- 弹性伸缩