HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于
  • AI 基础设施深度教程

    • AI Infra 深度教程
    • GPU容器化

      • 01-GPU 架构基础
      • NVIDIA 容器运行时
      • GPU 共享与隔离
      • GPU 监控与调试
    • Kubernetes GPU调度

      • Device Plugin 机制深度解析
      • GPU 调度器实现
      • 拓扑感知调度
      • 弹性 GPU 调度
    • AI训练平台

      • 分布式训练框架
      • 训练任务调度
      • 模型存储与管理
      • 实验管理
      • 超参数优化
    • 推理服务

      • 推理引擎原理
      • 模型服务框架
      • 动态批处理
      • 推理优化技术
      • 多模型服务
    • 异构计算

      • 05-异构计算
      • 异构计算概述
      • GPU 虚拟化技术
      • NPU 与专用 AI 芯片
      • 设备拓扑感知调度
      • 算力池化与弹性调度
    • AI工作流引擎

      • 06-AI工作流引擎
      • AI 工作流引擎概述
      • Kubeflow Pipelines 深度实践
      • 03-Argo Workflows 深度实践
      • 04-数据版本管理
      • 05-实验跟踪与模型注册
    • MLOps实践

      • 07-MLOps实践
      • 01-MLOps 成熟度模型
      • 02-数据集工程
      • 03-Feature Store 特征存储
      • 04-模型评测体系
      • 05-模型安全与治理
    • AIOps实践

      • 08-AIOps实践
      • 01-AIOps概述与架构
      • 02-异常检测算法
      • 03-根因分析与告警聚合
      • 04-智能运维决策
      • 05-AIOps平台实战
    • 面试专题

      • 09-面试专题
      • 01-AI基础设施核心面试题
      • 02-大模型面试题
      • 03-系统设计面试题
    • CUDA编程与算子开发

      • 10-CUDA 编程与算子开发
      • 01-CUDA编程模型与内存层次
      • 02-高性能 Kernel 开发实战
      • 03-Tensor Core 与矩阵运算
      • 04-算子融合与优化技术
      • 05-Triton 编程入门
    • 通信与网络底层

      • 11-通信与网络底层
      • 01-NCCL 源码深度解析
      • 02-AllReduce 算法实现
      • 03-RDMA与InfiniBand原理
      • 04-网络拓扑与通信优化
      • 05-大规模集群网络架构
    • 框架源码解析

      • 12-框架源码解析
      • 01-PyTorch分布式源码解析
      • 02-DeepSpeed源码深度解析
      • 03-Megatron-LM源码解析
      • 04-vLLM推理引擎源码解析
      • 05-HuggingFace Transformers源码解析
    • 编译优化与图优化

      • 13-编译优化与图优化
      • 01-深度学习编译器概述
      • 02-TorchDynamo与torch.compile
      • 03-XLA编译器深度解析
      • 04-算子融合与Kernel优化
      • 05-自动调度与代码生成

06-AI工作流引擎

本章深入探讨 AI 基础设施中的工作流引擎和 MLOps 数据管理,包括流水线编排、数据版本控制、实验跟踪和模型注册等核心能力。

目录

01-工作流引擎概述

  • 为什么需要工作流引擎
  • 主流工作流引擎对比
  • 工作流引擎架构设计
  • 常见工作流模式
  • Kubernetes 集成实践

02-Kubeflow-Pipelines

  • KFP 架构与组件
  • KFP v2 SDK 开发
  • Pipeline 定义与编排
  • 高级特性(缓存、分布式训练)
  • 生产部署最佳实践

03-Argo-Workflows

  • Argo Workflows 架构
  • Workflow 模板详解
  • 高级 DAG 模式
  • Artifact 管理
  • 监控与可观测性

04-数据版本管理

  • 数据版本管理挑战
  • DVC 深度实践
  • LakeFS 数据湖版本管理
  • Delta Lake 表格版本管理
  • 工具选择指南

05-实验跟踪与模型注册

  • 实验跟踪系统架构
  • MLflow 深度实践
  • 自建模型注册中心
  • 审批流程与血缘追踪
  • 生产集成方案

核心概念

工作流引擎

工作流引擎负责编排和执行机器学习流水线,核心功能包括:

  • DAG 编排:定义任务依赖关系
  • 资源调度:分配计算资源
  • 状态管理:跟踪执行状态
  • 故障恢复:处理失败和重试

数据版本管理

在 ML 项目中管理数据版本的关键能力:

  • 版本追踪:记录数据变更历史
  • 分支合并:支持并行实验
  • 血缘追踪:数据来源追溯
  • 增量存储:节省存储成本

实验跟踪

记录和管理 ML 实验的系统:

  • 参数记录:超参数和配置
  • 指标追踪:训练和评估指标
  • Artifact 存储:模型、数据、图表
  • 实验对比:版本间差异分析

模型注册

生产级模型管理中心:

  • 版本管理:模型版本控制
  • 阶段转换:Staging → Production
  • 审批流程:变更控制
  • 血缘追踪:模型来源追溯

技术栈

┌─────────────────────────────────────────────────────────────┐
│                      应用层                                  │
│  训练任务 │ 推理服务 │ 数据处理 │ 特征工程                   │
├─────────────────────────────────────────────────────────────┤
│                      编排层                                  │
│  Kubeflow Pipelines │ Argo Workflows │ Airflow │ Prefect    │
├─────────────────────────────────────────────────────────────┤
│                      数据管理层                              │
│  DVC │ LakeFS │ Delta Lake │ Pachyderm                      │
├─────────────────────────────────────────────────────────────┤
│                      实验跟踪层                              │
│  MLflow │ Weights & Biases │ Neptune │ 自建方案              │
├─────────────────────────────────────────────────────────────┤
│                      存储层                                  │
│  S3/MinIO │ PostgreSQL │ Redis │ Kafka                      │
└─────────────────────────────────────────────────────────────┘

学习路径

工作流概述 ──► KFP ──► Argo ──► 数据版本 ──► 实验跟踪
    │          │       │          │            │
    ▼          ▼       ▼          ▼            ▼
  引擎对比   SDK开发  DAG模式    DVC/LakeFS   MLflow
  架构设计   Pipeline  Artifact  Delta Lake   模型注册

关键技能

学完本章,你将掌握:

  1. 工作流编排

    • 设计 ML 流水线架构
    • 使用 KFP/Argo 构建 Pipeline
    • 实现复杂工作流模式
  2. 数据版本管理

    • 配置和使用 DVC
    • 部署 LakeFS 数据湖
    • Delta Lake 时间旅行
  3. 实验管理

    • MLflow 实验跟踪
    • 模型版本管理
    • 审批流程设计
  4. 生产集成

    • K8s 原生工作流
    • CI/CD 集成
    • 监控告警

实践项目

  1. 端到端 ML Pipeline

    • 数据预处理 → 训练 → 评估 → 部署
    • 使用 Kubeflow Pipelines 编排
    • 集成 MLflow 实验跟踪
  2. 数据版本管理系统

    • DVC + Git 工作流
    • 特征存储版本管理
    • 训练数据快照
  3. 模型注册中心

    • 自建模型注册服务
    • 审批流程实现
    • 血缘追踪系统

参考资源

  • Kubeflow Pipelines 文档
  • Argo Workflows 文档
  • DVC 文档
  • LakeFS 文档
  • MLflow 文档
  • Delta Lake 文档
Next
AI 工作流引擎概述