05-异构计算

本章深入探讨 AI 基础设施中的异构计算管理，包括多种加速器的统一调度、GPU 虚拟化、专用 AI 芯片集成以及算力池化技术。

核心概念

异构计算

指在同一系统中使用不同类型的处理器（CPU、GPU、NPU、TPU 等）协同工作，充分发挥各类处理器的优势。

GPU 虚拟化

将物理 GPU 资源划分为多个虚拟实例，实现多任务共享，提高资源利用率。主要技术包括：

MIG：硬件级分区，提供真正的资源隔离
时间片：软件级共享，适合轻量级工作负载
vGPU：灵活的显存和算力分配

拓扑感知调度

根据加速器之间的互联拓扑（NVLink、NVSwitch、HCCS 等）和 NUMA 亲和性，优化任务放置，最大化通信效率。

算力池化

将分散的加速器资源统一管理，实现：

资源的逻辑聚合
按需弹性分配
多租户隔离
统一计量计费

技术栈

┌─────────────────────────────────────────────────────────────┐
│                      应用层                                  │
│  PyTorch │ TensorFlow │ MindSpore │ JAX                     │
├─────────────────────────────────────────────────────────────┤
│                      调度层                                  │
│  Kubernetes │ Volcano │ Yunikorn │ 自定义调度器              │
├─────────────────────────────────────────────────────────────┤
│                      虚拟化层                                │
│  MIG │ Time-Slicing │ HAMi │ gpushare │ rGPU                │
├─────────────────────────────────────────────────────────────┤
│                      设备层                                  │
│  NVIDIA GPU │ AMD GPU │ 昇腾 NPU │ Gaudi │ TPU              │
└─────────────────────────────────────────────────────────────┘

学习路径

基础概念 ──► GPU虚拟化 ──► 专用芯片 ──► 拓扑调度 ──► 算力池化
   │            │            │            │            │
   ▼            ▼            ▼            ▼            ▼
 加速器对比   MIG配置     昇腾/Gaudi    NUMA优化     弹性调度
 资源抽象    时间片      TPU集成      集群拓扑     队列管理

关键技能

学完本章，你将掌握：

多加速器管理
- 理解不同 AI 芯片的特点
- 设计统一的资源抽象
- 实现多芯片混合调度
GPU 虚拟化
- 配置 MIG 分区策略
- 实现时间片共享
- 部署 vGPU 方案
拓扑优化
- 分析 GPU 互联拓扑
- 实现拓扑感知调度
- 优化 NUMA 亲和性
算力池化
- 设计资源池架构
- 实现弹性调度
- 构建计量计费系统

实践项目

MIG 配置管理工具
- 自动化 MIG 分区配置
- 动态调整策略
- 监控与告警
拓扑感知调度器
- 拓扑发现与分析
- 最优 GPU 选择
- Kubernetes 集成
算力池化平台
- 资源池管理
- 多租户配额
- 弹性伸缩

05-异构计算

目录

01-异构计算概述

02-GPU虚拟化技术

03-NPU与专用芯片

04-设备拓扑感知调度

05-算力池化与弹性调度