HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于

AI Infra 公众号系列

从零开始,用人话讲透 AI 基础设施。看完能上手干活,能去面试。

系列定位

  • 目标读者:有后端经验,想了解或转型 AI Infra 的工程师
  • 内容风格:通俗易懂,有代码有配置,学完能用
  • 单篇字数:3000-5000 字
  • 写作规范:见 STYLE_GUIDE.md

系列目录

导读

序号标题定位状态
00AI 大模型行业概览非技术人士入门,概念科普✅

第一部分:入门概述

序号标题状态
01AI Infra 到底是什么✅
02nvidia-smi 输出详解✅
03GPU 的核心指标:显存、算力、带宽✅

第二部分:GPU 硬件

序号标题状态
04H100、A100、4090:主流 GPU 怎么选✅
05NVLink 和 PCIe:GPU 之间怎么通信✅
06InfiniBand:跨机器的高速网络✅

第三部分:数据篇

序号标题状态
07训练数据长什么样✅
08数据标注:模型的粮食怎么来的✅
09知名数据集和数据公司✅

第四部分:训练篇

序号标题状态
10为什么要分布式训练✅
11数据并行、模型并行、流水线并行✅
12NCCL:GPU 之间怎么同步数据✅
13训练框架对比:DDP vs DeepSpeed vs Megatron✅

第五部分:推理篇

序号标题状态
14推理和训练有什么不一样✅
15KV Cache:为什么显存越用越多✅
16vLLM 原理:PagedAttention 和 Continuous Batching✅
17推理框架对比:vLLM vs TensorRT-LLM vs SGLang✅

第六部分:评测篇

序号标题状态
18模型评测是怎么回事✅
19常见 Benchmark:MMLU、HumanEval、GSM8K✅
20Leaderboard 和评测平台✅

第七部分:调度篇

序号标题状态
21K8s 怎么管理 GPU:Device Plugin 原理✅
22Volcano:AI 场景的批处理调度器✅
23GPU 切分:MIG、MPS、vGPU✅
24GPU 调度的常见问题✅

第八部分:工程化

序号标题状态
25AI 平台的监控告警✅
26GPU 利用率优化✅
27AI Infra 的成本怎么算✅
28MLOps:模型的 CI/CD✅

第九部分:职业发展

序号标题状态
29AI Infra 面试会问什么✅
30后端转 AI Infra 的学习路径✅

已完成文章

导读 + 入门(00-03)

  1. 00-AI 大模型行业概览 - 非技术人士入门,讲清楚行业全貌和基本概念
  2. 01-AI Infra 到底是什么 - 技术入门,讲清楚 AI Infra 的定义和范围
  3. 02-nvidia-smi 输出详解 - 实操入门,逐行解释 GPU 状态命令
  4. 03-GPU 核心指标 - 理论基础,显存、算力、带宽的关系

GPU 硬件(04-06)

  1. 04-主流 GPU 怎么选 - H100、A100、H20、L40S、4090 的参数对比和选型建议
  2. 05-NVLink 和 PCIe - GPU 互联方式,为什么多卡训练要用 NVLink
  3. 06-InfiniBand - 跨机器高速网络,RDMA 和 GPUDirect

数据篇(07-09)

  1. 07-训练数据格式 - 预训练、SFT、RLHF 各阶段数据长什么样
  2. 08-数据标注 - 标注流程、成本、难点
  3. 09-数据集和数据公司 - 常用开源数据集和数据服务商

训练篇(10-13)

  1. 10-为什么要分布式训练 - 显存和算力的限制,分布式的代价
  2. 11-并行方式 - 数据并行、张量并行、流水线并行、ZeRO
  3. 12-NCCL - GPU 集合通信,AllReduce 等操作
  4. 13-训练框架对比 - DDP、FSDP、DeepSpeed、Megatron 选型

推理篇(14-17)

  1. 14-推理 vs 训练 - 两者的核心区别,优化方向不同
  2. 15-KV Cache - 为什么显存越用越多,优化方法
  3. 16-vLLM 原理 - PagedAttention 和 Continuous Batching
  4. 17-推理框架对比 - vLLM、TensorRT-LLM、SGLang、TGI 选型

评测篇(18-20)

  1. 18-模型评测 - 评测类型、指标、流程
  2. 19-常见 Benchmark - MMLU、HumanEval、GSM8K 等
  3. 20-Leaderboard - 排行榜和评测平台

调度篇(21-24)

  1. 21-Device Plugin - K8s 怎么管理 GPU
  2. 22-Volcano - AI 场景的批处理调度器
  3. 23-GPU 切分 - MIG、MPS、vGPU
  4. 24-GPU 调度问题 - 常见问题和排查方法

工程化(25-28)

  1. 25-监控告警 - GPU 监控、训练监控、推理监控
  2. 26-GPU 利用率优化 - 诊断和优化方法
  3. 27-成本计算 - 硬件、运营、云服务成本
  4. 28-MLOps - 版本管理、流水线、CI/CD

职业发展(29-30)

  1. 29-面试题 - 常见面试问题和参考答案
  2. 30-学习路径 - 后端转 AI Infra 的学习建议

状态说明

  • 📝 待写
  • ✍️ 写作中
  • ✅ 已完成
  • 📤 已发布