HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于
  • 概览

    • K8s 实战学习实验室
    • 服务访问清单
    • K8s-Lab 学习总纲、仓库评估与专家路线图
  • 课程正文

    • 环境验证与第一课:认识你的真实集群
    • 第二课:kubectl apply 之后,到底发生了什么
    • 第三课:调度器如何选节点,为什么 Pod 会 Pending
    • 第四课:Kubernetes 网络、协议分层、VXLAN/IPIP/WireGuard 原理与排障
    • 第五课:NetworkPolicy、零信任网络与流量边界
    • 第六课:身份、认证、授权、准入与 ServiceAccount / RBAC 原理
    • 第七课:ConfigMap 与 Secret 注入模型、更新机制与安全边界
    • 第八课:存储持久化、PV / PVC / StorageClass 与 NFS 原理
    • 第九课:StatefulSet、Headless Service、稳定身份与存储原理
    • 第十课:探针、滚动更新、优雅终止与 PDB 原理
    • 第十一课:requests / limits、QoS、OOM 与驱逐原理
    • 第十二课:HPA、自动扩缩容、指标链路与副本伸缩原理
    • 第十三课:Service、EndpointSlice、kube-proxy、CoreDNS 与服务发现原理
    • 第十四课:Ingress-nginx、反向代理、Host / Path、NodePort 与北南向流量原理
    • 第十五课:HTTPS、TLS、SNI、证书信任与 Ingress 终止原理
    • 第十六课:cert-manager、Ingress 自动签发、证书生命周期与 ACME 工作流原理
    • 第十七课:ACME、Let's Encrypt、HTTP-01 / DNS-01、Orders / Challenges 与生产限制原理
    • 第十八课:大模型全生态,从数据到训练到部署到治理原理
    • 第十九课:大模型数据集、清洗、标注、切分、版本管理与质量治理原理
    • 第二十课:大模型训练、SFT、LoRA、Checkpoint、Adapter 与模型产物原理
    • 第二十一课:大模型推理、量化、KV Cache、vLLM、吞吐/延迟与部署发布链路原理
  • 实验操作记录

    • 本次仓库审查操作记录与命令原理
    • 本轮操作记录:环境验证、集群基线盘点与故障样本采集
    • 本轮操作记录:kubectl apply 主链路实验
    • 本轮操作记录:调度实验与 Pending 排查
    • 本轮操作记录:Kubernetes 网络原理、协议对比与调试实验
    • 本轮操作记录:NetworkPolicy 与零信任网络实验
    • 本轮操作记录:身份、认证、授权、准入实验
    • 本轮操作记录:ConfigMap 与 Secret 注入、更新与安全边界实验
    • 本轮操作记录:存储持久化、PV / PVC / StorageClass 与 NFS 实验
    • 本轮操作记录:StatefulSet、Headless Service 与稳定身份实验
    • 本轮操作记录:探针、滚动更新、优雅终止与 PDB 实验
    • 本轮操作记录:资源模型、QoS、OOM 与 CPU 节流实验
    • 本轮操作记录:HPA 自动扩缩容实验
    • 本轮操作记录:Service、EndpointSlice、CoreDNS 与服务发现排障实验
    • 本轮操作记录:Ingress-nginx、NodePort 与北南向流量实验
    • 本轮操作记录:HTTPS、TLS、自签证书与 Ingress 实验
    • 本轮操作记录:cert-manager 安装、CA 签发与 Ingress 自动证书实验
    • 本轮操作记录:ACME staging、HTTP-01 失败样本与排障实验
    • 本轮操作记录:大模型全生态与基础原理科普文撰写
    • 本轮操作记录:大模型数据集样本与治理文档编写
    • 本轮操作记录:大模型训练与模型产物概念文撰写
    • 本轮操作记录:大模型推理与服务发布概念文撰写

本轮操作记录:大模型全生态与基础原理科普文撰写

本轮目标

这一轮不是在集群里创建资源,而是为后续在这套环境上搭建“大模型从数据准备到训练到部署发布”的全流程,先补一篇给小白和入行人员看的概念总览文档。

目标有三个:

  1. 先把世界观补齐,避免后面把工程学成一堆碎片名词。
  2. 让读者先理解数据、模型、训练、部署、RAG、治理这些东西各自是什么。
  3. 为后续真正落平台时,提供统一术语和认知底座。

Step 1:先看仓库里已有什么 ML 相关内容

实际命令

rg --files /Users/yuanjun/coding/github/k8s-lab/ml-platform | sort

sed -n '1,260p' /Users/yuanjun/coding/github/k8s-lab/ml-platform/docs/ml-pipeline.md

sed -n '1,260p' /Users/yuanjun/coding/github/k8s-lab/README.md

为什么先看这一步

因为我不能不看仓库上下文就直接新写一篇文档。

我需要先确认:

  • 仓库是否已有大模型总览
  • ml-platform 现有内容是偏概念,还是偏实战
  • 新文档应该放在什么位置更容易和现有学习路径衔接

我看到的结果

ml-platform 当前内容

已经有:

  • 训练代码
  • 推理代码
  • Operator
  • manifests
  • 一篇 ml-pipeline.md

ml-pipeline.md 的定位

它讲的是一个通用机器学习流水线:

  • 数据
  • 特征工程
  • 模型训练
  • ONNX / JSON 导出
  • Go 推理
  • K8s Operator 部署

这个文档很有价值,但它不是“大模型全生态科普”。

原理解释

这一步让我确认了一件事:

仓库现在缺的不是“有没有 ML 内容”,而是“有没有一篇把大模型世界观和工程链讲透的总览文档”。

所以本轮正确动作不是改已有 ml-pipeline.md,而是新增一篇独立的大模型总览。


Step 2:确定新文档放在仓库根目录,而不是塞进现有 ml-platform/docs

为什么这么选

仓库根目录前面已经有一整套按课次递进的文档:

  • 00
  • 01
  • ...
  • 17

这些文档的特点是:

  • 都是“概念 + 原理 + 实验 / 操作”的学习主线

而这次要写的内容,本质上也是一篇“总纲型概念课”。

所以我选择新增:

  • 18-第十八课-大模型全生态-从数据到训练到部署到治理原理.md

以及对应操作记录:

  • 18-操作记录-大模型全生态与基础原理科普文撰写.md

原理解释

这样做的好处是:

  1. 继续沿用仓库现有教学节奏。
  2. 读者更容易把这篇文档当成“正式课程的一部分”。
  3. 后续如果继续写 19、20、21,整个主线会非常清晰。

Step 3:确定这篇文章必须回答哪些“小白最卡的基础问题”

在动笔前,我先把这篇文章要回答的核心问题列清楚。

这是非常重要的一步,因为很多技术文档写不好,不是作者不会,而是作者根本没有定义清楚“要帮读者跨过哪些认知坎”。

我锁定的核心问题

  1. 什么是大模型?
  2. 数据集到底是什么?
  3. 数据到底长什么样?
  4. 数据从哪里来?
  5. 数据为什么不能直接拿去训练?
  6. Token 是什么?
  7. 模型是怎么通过训练产生的?
  8. Transformer 为什么重要?
  9. 训练完的产物长什么样?
  10. 模型为什么能回答用户?
  11. 模型为什么会幻觉?
  12. 预训练、SFT、LoRA、RLHF、DPO 是什么关系?
  13. RAG 和训练是什么关系?
  14. 部署模型到底在部署什么?
  15. 模型和数据在公司里怎么管理?

原理解释

这一步本质上是在做“概念图谱设计”。

如果没有这一步,文章很容易变成:

  • 名词堆砌
  • 没有主线
  • 读者读完仍不知道自己到底理解了什么

而我希望这篇文档做到的是:

让一个完全不懂的人,看完至少能在脑子里搭出大模型工程的整体地图。


Step 4:写作策略不是“讲高深术语”,而是“先搭世界观,再补工程映射”

我采用的写法

我没有按某个框架的 API 来写,也没有从数学公式开始写,而是采用两层结构:

第一层:世界观

先回答:

  • 大模型到底是个什么系统
  • 数据、训练、模型、推理、RAG、治理分别是什么

第二层:工程映射

再回答:

  • 这些东西在企业里怎么落
  • 在 Kubernetes 环境里通常对应哪些平台层

为什么这样写

因为用户现在最缺的不是某个命令,而是:

  • 概念边界
  • 分层视角
  • 工程全链路认知

如果一开始就讲:

  • 某个训练框架的参数
  • 某个模型服务的启动命令

读者只会得到短期操作感,不会得到长期架构感。


Step 5:正文里刻意加入“最小样本”和“最小文件结构”

这是本轮写作里一个很重要的设计。

为什么要给最小样本

因为很多小白听到:

  • 预训练数据
  • 指令数据
  • 偏好数据

脑子里是没有真实形状的。

所以正文里我刻意放了最小 JSONL / JSON 示例,分别展示:

  • 预训练文本样本
  • 多轮对话样本
  • chosen/rejected 偏好样本
  • RAG 文档样本

为什么要给最小文件结构

因为很多人听到“模型产物”时,也没有具体感。

所以正文里我刻意给了目录示例,展示:

  • config.json
  • tokenizer.json
  • model.safetensors
  • generation_config.json
  • adapter_model.safetensors

原理解释

这是一个非常实用的技术教学原则:

只讲抽象定义,读者往往记不住;一旦看到最小实例,抽象概念就能落地。


Step 6:正文里刻意把“模型为什么能回答”和“为什么会幻觉”放在一起讲

为什么要这样安排

很多面向小白的科普文,只会讲:

  • 模型很强
  • 模型会写代码
  • 模型会聊天

但这会制造错误预期。

如果你未来真的要做平台、做架构、做治理,你必须从第一天就接受一个现实:

  • 模型能力强
  • 但它天然不确定

所以我在正文里紧挨着讲了两件事:

  1. 它为什么会回答
  2. 它为什么会胡说

原理解释

这样安排的好处是,读者不会把模型神化成:

  • 真正理解一切的智能体

而会更早接受它的真实工程定位:

  • 一个强大的序列生成器
  • 需要被约束、监控和治理

这对后面理解:

  • RAG
  • 工具调用
  • 审核
  • 评估
  • 模型管理

都很关键。


Step 7:正文里专门拆开了“模型管理”和“数据管理”

为什么必须拆开

很多新人会把“管理模型”理解成:

  • 权重文件放哪

把“管理数据”理解成:

  • 原始文件放哪

这都太浅了。

所以正文里我专门展开了:

模型管理

  • 版本
  • 血缘
  • 评估
  • 发布状态
  • 回滚
  • 权限

数据管理

  • 数据版本
  • 元数据
  • 权限
  • 合规
  • 可回放

原理解释

这样设计是因为真正公司的大模型平台,最容易出问题的地方,往往不是:

  • 模型推不推得起来

而是:

  • 不知道模型吃了什么数据
  • 不知道线上是哪版
  • 不知道评估结果在哪
  • 不知道出了问题该回滚到哪

所以越早让读者建立“资产治理”意识,越能避免后面只会做 Demo。


Step 8:文末没有停在概念,而是故意给出了后续专题路线

我为什么没有把文章写成“一篇终结一切”

因为这类总览文档的正确定位,不是把所有内容一次讲完,而是:

  • 先建立地图
  • 再拆成专题继续深挖

所以文末我明确列出了后续最值得继续展开的 5 个专题:

  1. 数据工程专题
  2. Tokenizer 与 Transformer 结构专题
  3. SFT / LoRA / DPO 训练链专题
  4. 推理服务与显存 / 吞吐 / 延迟专题
  5. RAG 与模型治理专题

原理解释

这一步是在为后续课程铺路。

也就是说,这篇 18 不是终点,而是:

  • 大模型平台课程线的起点

本轮新增文件

主文档

  • 18-第十八课-大模型全生态-从数据到训练到部署到治理原理.md

操作记录

  • 18-操作记录-大模型全生态与基础原理科普文撰写.md

本轮没有做的事

这轮是概念和世界观建设,没有进行:

  • 新的 Kubernetes 资源创建
  • 训练任务提交
  • 推理服务部署
  • 数据集导入

原因很明确:

在没有先把认知地图讲清楚之前,直接推进训练和部署,读者只会跟着命令跑,而不会真正理解自己在搭什么。


下一步最自然的推进

基于这篇总览,后续最自然的下一课不是再泛泛讲概念,而是进入一个更具体、工程价值更高的专题。

我建议优先推进:

  • 数据集专题

也就是系统讲透:

  • 数据长什么样
  • 数据怎么清洗
  • 怎么做问答对和偏好数据
  • 怎么做数据版本管理
  • 怎么做隐私和质量治理

因为大模型项目成败,往往最先卡死在数据,而不是卡死在模型结构名字上。

Prev
本轮操作记录:ACME staging、HTTP-01 失败样本与排障实验
Next
本轮操作记录:大模型数据集样本与治理文档编写