HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于
  • AI 基础设施深度教程

    • AI Infra 深度教程
    • GPU容器化

      • 01-GPU 架构基础
      • NVIDIA 容器运行时
      • GPU 共享与隔离
      • GPU 监控与调试
    • Kubernetes GPU调度

      • Device Plugin 机制深度解析
      • GPU 调度器实现
      • 拓扑感知调度
      • 弹性 GPU 调度
    • AI训练平台

      • 分布式训练框架
      • 训练任务调度
      • 模型存储与管理
      • 实验管理
      • 超参数优化
    • 推理服务

      • 推理引擎原理
      • 模型服务框架
      • 动态批处理
      • 推理优化技术
      • 多模型服务
    • 异构计算

      • 05-异构计算
      • 异构计算概述
      • GPU 虚拟化技术
      • NPU 与专用 AI 芯片
      • 设备拓扑感知调度
      • 算力池化与弹性调度
    • AI工作流引擎

      • 06-AI工作流引擎
      • AI 工作流引擎概述
      • Kubeflow Pipelines 深度实践
      • 03-Argo Workflows 深度实践
      • 04-数据版本管理
      • 05-实验跟踪与模型注册
    • MLOps实践

      • 07-MLOps实践
      • 01-MLOps 成熟度模型
      • 02-数据集工程
      • 03-Feature Store 特征存储
      • 04-模型评测体系
      • 05-模型安全与治理
    • AIOps实践

      • 08-AIOps实践
      • 01-AIOps概述与架构
      • 02-异常检测算法
      • 03-根因分析与告警聚合
      • 04-智能运维决策
      • 05-AIOps平台实战
    • 面试专题

      • 09-面试专题
      • 01-AI基础设施核心面试题
      • 02-大模型面试题
      • 03-系统设计面试题
    • CUDA编程与算子开发

      • 10-CUDA 编程与算子开发
      • 01-CUDA编程模型与内存层次
      • 02-高性能 Kernel 开发实战
      • 03-Tensor Core 与矩阵运算
      • 04-算子融合与优化技术
      • 05-Triton 编程入门
    • 通信与网络底层

      • 11-通信与网络底层
      • 01-NCCL 源码深度解析
      • 02-AllReduce 算法实现
      • 03-RDMA与InfiniBand原理
      • 04-网络拓扑与通信优化
      • 05-大规模集群网络架构
    • 框架源码解析

      • 12-框架源码解析
      • 01-PyTorch分布式源码解析
      • 02-DeepSpeed源码深度解析
      • 03-Megatron-LM源码解析
      • 04-vLLM推理引擎源码解析
      • 05-HuggingFace Transformers源码解析
    • 编译优化与图优化

      • 13-编译优化与图优化
      • 01-深度学习编译器概述
      • 02-TorchDynamo与torch.compile
      • 03-XLA编译器深度解析
      • 04-算子融合与Kernel优化
      • 05-自动调度与代码生成

05-异构计算

本章深入探讨 AI 基础设施中的异构计算管理,包括多种加速器的统一调度、GPU 虚拟化、专用 AI 芯片集成以及算力池化技术。

目录

01-异构计算概述

  • AI 加速器生态全景
  • GPU vs NPU vs TPU 对比
  • 异构资源抽象模型
  • 统一调度框架设计
  • 拓扑管理与发现

02-GPU虚拟化技术

  • GPU 虚拟化原理与层次
  • NVIDIA MIG 技术详解
  • GPU 时间片共享
  • vGPU 与 HAMi 方案
  • 显存虚拟化与池化
  • 性能监控与优化

03-NPU与专用芯片

  • AI 芯片生态对比
  • 华为昇腾架构与集成
  • Intel Gaudi 特点与部署
  • Google TPU GKE 集成
  • 多芯片统一管理抽象
  • 芯片选择决策指南

04-设备拓扑感知调度

  • GPU 服务器拓扑分析
  • 拓扑距离矩阵计算
  • Kubernetes 拓扑感知调度器
  • 跨节点拓扑优化
  • NUMA 亲和性管理
  • 集群级调度优化

05-算力池化与弹性调度

  • 算力池化架构设计
  • 资源抽象与池管理
  • 弹性调度系统实现
  • 队列管理与优先级
  • 远程 GPU 访问 (rGPU)
  • 监控计费系统

核心概念

异构计算

指在同一系统中使用不同类型的处理器(CPU、GPU、NPU、TPU 等)协同工作,充分发挥各类处理器的优势。

GPU 虚拟化

将物理 GPU 资源划分为多个虚拟实例,实现多任务共享,提高资源利用率。主要技术包括:

  • MIG:硬件级分区,提供真正的资源隔离
  • 时间片:软件级共享,适合轻量级工作负载
  • vGPU:灵活的显存和算力分配

拓扑感知调度

根据加速器之间的互联拓扑(NVLink、NVSwitch、HCCS 等)和 NUMA 亲和性,优化任务放置,最大化通信效率。

算力池化

将分散的加速器资源统一管理,实现:

  • 资源的逻辑聚合
  • 按需弹性分配
  • 多租户隔离
  • 统一计量计费

技术栈

┌─────────────────────────────────────────────────────────────┐
│                      应用层                                  │
│  PyTorch │ TensorFlow │ MindSpore │ JAX                     │
├─────────────────────────────────────────────────────────────┤
│                      调度层                                  │
│  Kubernetes │ Volcano │ Yunikorn │ 自定义调度器              │
├─────────────────────────────────────────────────────────────┤
│                      虚拟化层                                │
│  MIG │ Time-Slicing │ HAMi │ gpushare │ rGPU                │
├─────────────────────────────────────────────────────────────┤
│                      设备层                                  │
│  NVIDIA GPU │ AMD GPU │ 昇腾 NPU │ Gaudi │ TPU              │
└─────────────────────────────────────────────────────────────┘

学习路径

基础概念 ──► GPU虚拟化 ──► 专用芯片 ──► 拓扑调度 ──► 算力池化
   │            │            │            │            │
   ▼            ▼            ▼            ▼            ▼
 加速器对比   MIG配置     昇腾/Gaudi    NUMA优化     弹性调度
 资源抽象    时间片      TPU集成      集群拓扑     队列管理

关键技能

学完本章,你将掌握:

  1. 多加速器管理

    • 理解不同 AI 芯片的特点
    • 设计统一的资源抽象
    • 实现多芯片混合调度
  2. GPU 虚拟化

    • 配置 MIG 分区策略
    • 实现时间片共享
    • 部署 vGPU 方案
  3. 拓扑优化

    • 分析 GPU 互联拓扑
    • 实现拓扑感知调度
    • 优化 NUMA 亲和性
  4. 算力池化

    • 设计资源池架构
    • 实现弹性调度
    • 构建计量计费系统

实践项目

  1. MIG 配置管理工具

    • 自动化 MIG 分区配置
    • 动态调整策略
    • 监控与告警
  2. 拓扑感知调度器

    • 拓扑发现与分析
    • 最优 GPU 选择
    • Kubernetes 集成
  3. 算力池化平台

    • 资源池管理
    • 多租户配额
    • 弹性伸缩

参考资源

  • NVIDIA MIG 用户指南
  • HAMi 项目
  • Volcano 调度器
  • 华为昇腾文档
  • Intel Gaudi 文档
Next
异构计算概述