HiHuo
首页
博客
手册
工具
关于
首页
博客
手册
工具
关于
  • 概览

    • K8s 实战学习实验室
    • 服务访问清单
    • K8s-Lab 学习总纲、仓库评估与专家路线图
  • 课程正文

    • 环境验证与第一课:认识你的真实集群
    • 第二课:kubectl apply 之后,到底发生了什么
    • 第三课:调度器如何选节点,为什么 Pod 会 Pending
    • 第四课:Kubernetes 网络、协议分层、VXLAN/IPIP/WireGuard 原理与排障
    • 第五课:NetworkPolicy、零信任网络与流量边界
    • 第六课:身份、认证、授权、准入与 ServiceAccount / RBAC 原理
    • 第七课:ConfigMap 与 Secret 注入模型、更新机制与安全边界
    • 第八课:存储持久化、PV / PVC / StorageClass 与 NFS 原理
    • 第九课:StatefulSet、Headless Service、稳定身份与存储原理
    • 第十课:探针、滚动更新、优雅终止与 PDB 原理
    • 第十一课:requests / limits、QoS、OOM 与驱逐原理
    • 第十二课:HPA、自动扩缩容、指标链路与副本伸缩原理
    • 第十三课:Service、EndpointSlice、kube-proxy、CoreDNS 与服务发现原理
    • 第十四课:Ingress-nginx、反向代理、Host / Path、NodePort 与北南向流量原理
    • 第十五课:HTTPS、TLS、SNI、证书信任与 Ingress 终止原理
    • 第十六课:cert-manager、Ingress 自动签发、证书生命周期与 ACME 工作流原理
    • 第十七课:ACME、Let's Encrypt、HTTP-01 / DNS-01、Orders / Challenges 与生产限制原理
    • 第十八课:大模型全生态,从数据到训练到部署到治理原理
    • 第十九课:大模型数据集、清洗、标注、切分、版本管理与质量治理原理
    • 第二十课:大模型训练、SFT、LoRA、Checkpoint、Adapter 与模型产物原理
    • 第二十一课:大模型推理、量化、KV Cache、vLLM、吞吐/延迟与部署发布链路原理
  • 实验操作记录

    • 本次仓库审查操作记录与命令原理
    • 本轮操作记录:环境验证、集群基线盘点与故障样本采集
    • 本轮操作记录:kubectl apply 主链路实验
    • 本轮操作记录:调度实验与 Pending 排查
    • 本轮操作记录:Kubernetes 网络原理、协议对比与调试实验
    • 本轮操作记录:NetworkPolicy 与零信任网络实验
    • 本轮操作记录:身份、认证、授权、准入实验
    • 本轮操作记录:ConfigMap 与 Secret 注入、更新与安全边界实验
    • 本轮操作记录:存储持久化、PV / PVC / StorageClass 与 NFS 实验
    • 本轮操作记录:StatefulSet、Headless Service 与稳定身份实验
    • 本轮操作记录:探针、滚动更新、优雅终止与 PDB 实验
    • 本轮操作记录:资源模型、QoS、OOM 与 CPU 节流实验
    • 本轮操作记录:HPA 自动扩缩容实验
    • 本轮操作记录:Service、EndpointSlice、CoreDNS 与服务发现排障实验
    • 本轮操作记录:Ingress-nginx、NodePort 与北南向流量实验
    • 本轮操作记录:HTTPS、TLS、自签证书与 Ingress 实验
    • 本轮操作记录:cert-manager 安装、CA 签发与 Ingress 自动证书实验
    • 本轮操作记录:ACME staging、HTTP-01 失败样本与排障实验
    • 本轮操作记录:大模型全生态与基础原理科普文撰写
    • 本轮操作记录:大模型数据集样本与治理文档编写
    • 本轮操作记录:大模型训练与模型产物概念文撰写
    • 本轮操作记录:大模型推理与服务发布概念文撰写

服务访问清单

所有对外暴露的服务端口和凭据,集中管理。

AIForge 平台 (新)

项目值
前端控制台http://107.148.176.193:30801
Gateway APIhttp://107.148.176.193:30800
注册测试用户admin@aiforge.dev / aiforge123
OpenAI 兼容http://107.148.176.193:30800/v1/chat/completions
Playgroundhttp://107.148.176.193:30801/playground
注册POST /api/v1/auth/register
登录POST /api/v1/auth/login

集群访问

项目值
API Serverhttps://107.148.176.193:6443
kubeconfig (本机)~/.kube/config-k8s-lab
使用方式export KUBECONFIG=~/.kube/config-k8s-lab && kubectl get nodes

节点 SSH

角色IPSSHWireGuard IP
Master107.148.176.193ssh root@107.148.176.19310.10.0.1
Worker-1107.148.164.118ssh root@107.148.164.11810.10.0.2
Worker-2154.9.27.60ssh root@154.9.27.6010.10.0.3
Worker-338.76.221.17ssh root@38.76.221.1710.10.0.4
Worker-4154.219.104.66ssh root@154.219.104.6610.10.0.5

Web 服务

通过任意节点的公网 IP + NodePort 访问。推荐用 Master IP 107.148.176.193。

服务URL用户名密码备注
Grafanahttp://107.148.176.193:30300adminXXALH7sLZeubHVTofib3E3U9n6VgWTv0fbBq7KZ1监控仪表盘
Harborhttp://107.148.176.193:30180adminHarbor12345镜像仓库
ArgoCDhttp://107.148.176.193:30880adminoJAKbz26bMzRCfTNGitOps CI/CD
Giteahttp://107.148.176.193:30500adminGitea12345自托管 Git (NFS I/O 慢,PostgreSQL 需迁移到 local PV)
Ingress HTTPhttp://154.9.27.60:30080——需要 Host header
Ingress HTTPShttps://154.9.27.60:30443——需要 Host header
Nginx Demohttp://107.148.176.193:31281——Phase 1 练习

Ingress 路由

# 访问 dev 命名空间的 nginx(通过 Ingress)
curl -H "Host: app.k8s-lab.local" http://154.9.27.60:30080/

# 或者本地配 hosts:
# 154.9.27.60 app.k8s-lab.local
# 然后浏览器访问 http://app.k8s-lab.local:30080/

集群内部服务

只能从集群内部(Pod 中或节点上)访问:

服务ClusterIPDNS
Prometheus10.x.x.x:9090monitoring-kube-prometheus-prometheus.monitoring.svc:9090
Alertmanager10.x.x.x:9093monitoring-kube-prometheus-alertmanager.monitoring.svc:9093
CoreDNS10.96.0.10:53—
Kubernetes API10.96.0.1:443kubernetes.default.svc

存储

项目值
NFS ServerWorker-4 (10.10.0.5 / 154.219.104.66)
NFS 路径/srv/nfs/k8s
StorageClassnfs-dynamic(默认)
查看 PVCkubectl get pvc --all-namespaces

Gitea SSH (Git 推送)

# 通过 NodePort 30022 推送代码到 Gitea
git remote add gitea ssh://git@107.148.176.193:30022/admin/my-app.git

已部署组件清单

组件Namespace状态存储
Calico CNIkube-systemRunning—
metrics-serverkube-systemRunning—
NFS Provisionerkube-systemRunningWorker-4 NFS
Prometheus + AlertmanagermonitoringRunning10Gi + 2Gi NFS
GrafanamonitoringRunning5Gi NFS
Loki + PromtailmonitoringRunning10Gi NFS
node-exportermonitoringDaemonSet 5 节点—
kube-state-metricsmonitoringRunning—
nginx-ingressingress-nginxRunning—
HarborharborRunning20Gi+ NFS
ArgoCDargocdRunning—
GiteagiteaStarting5Gi NFS

ML Platform

项目值
推理 APIkubectl -n ml-platform port-forward svc/housing-model-v1-svc 8080:8080
预测请求curl -X POST http://localhost:8080/predict -d '{"features":[8.3,20,6.0,1.0,1500,3.0,37.78,-122.42]}'
模型信息curl http://localhost:8080/model/info
Prometheus 指标curl http://localhost:8080/metrics
查看 MLModelkubectl -n ml-platform get mlmodel
训练日志kubectl -n ml-platform logs job/ml-training-v1
Operator 日志kubectl -n ml-platform logs deploy/ml-operator

端口分配表

端口服务协议
6443K8s API ServerHTTPS
30080Ingress HTTPHTTP
30180HarborHTTP
30300GrafanaHTTP
30443Ingress HTTPSHTTPS
30500Gitea WebHTTP
30022Gitea SSHSSH
30880ArgoCD HTTPHTTP
30881ArgoCD HTTPSHTTPS
31281Nginx DemoHTTP
51820WireGuardUDP
Prev
K8s 实战学习实验室
Next
K8s-Lab 学习总纲、仓库评估与专家路线图