大模型推理与服务发布样本目录

这个目录不是可直接上线的生产配置，而是为了帮助初学者理解：

runtime package 如何进入推理引擎
请求进入服务后如何经历 prefill 和 decode
KV cache 在运行时大概是什么形态
量化方案、服务版本、部署清单和灰度发布分别长什么样

这里刻意保留了真实工程里的文件名和配置层次，但把依赖环境、镜像仓库、对象存储和业务域名都简化成了教学示例。

包含：

00-inference-service-config.yaml 一份面向推理引擎的服务配置示例
01-openai-chat-completions-request.json 一份 OpenAI 兼容接口请求示例
02-prefill-decode-timeline.txt 一条请求在 prefill / decode 阶段的时间线说明
03-kv-cache-layout.txt KV cache 分页和序列映射的示意样例
04-quantization-plan.yaml 量化方案对比与发布决策示例
05-model-release.yaml 从模型版本到服务版本的发布单示例
06-serving-deployment.yaml 一份部署到 Kubernetes 的推理服务清单示例
07-runtime-metrics.txt 线上推理服务的指标快照示例
08-canary-rollout.yaml 金丝雀放量和回滚规则示例

建议配合根目录的：

21-第二十一课-大模型推理-量化-KV-Cache-vLLM-吞吐延迟与部署发布链路原理.md

一起阅读。