第27章生产环境案例分析

学习目标

通过真实案例学习网络故障排查
掌握复杂网络问题的分析方法
了解生产环境的最佳实践
提升网络架构设计能力

前置知识

27.1 案例1：Kubernetes集群网络中断

27.1.1 问题描述

环境：

Kubernetes 1.20集群
使用Calico网络插件
3个Master节点，10个Worker节点
运行200+个Pod

现象：

部分Pod无法访问Service
跨节点Pod通信失败
网络策略不生效
集群状态显示正常

27.1.2 排查过程

1. 初步检查

# 检查集群状态
kubectl get nodes
kubectl get pods -n kube-system

# 检查网络插件
kubectl get pods -n calico-system
kubectl logs -n calico-system -l k8s-app=calico-node

2. 网络连通性测试

# 测试Pod间通信
kubectl run test-pod --image=busybox -it --rm -- sh
# 在Pod内测试
ping 10.244.1.2
wget -qO- http://nginx-service

3. 深入分析

# 检查Calico配置
calicoctl get nodes
calicoctl get ippool
calicoctl get networkpolicy

# 检查BGP状态
calicoctl node status

27.1.3 问题根因

发现的问题：

BGP对等体连接失败
路由表不完整
网络策略配置错误
节点间网络隔离

根本原因：

防火墙阻止了BGP端口179
网络策略过于严格
节点间网络配置不一致

27.1.4 解决方案

1. 修复BGP连接

# 开放BGP端口
iptables -A INPUT -p tcp --dport 179 -j ACCEPT
iptables -A OUTPUT -p tcp --dport 179 -j ACCEPT

# 重启Calico节点
kubectl rollout restart daemonset/calico-node -n calico-system

2. 修复网络策略

# 修复网络策略
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: allow-all
  namespace: default
spec:
  podSelector: {}
  policyTypes:
  - Ingress
  - Egress
  ingress:
  - {}
  egress:
  - {}

3. 验证修复

# 验证BGP连接
calicoctl node status

# 验证网络连通性
kubectl run test-pod --image=busybox -it --rm -- sh
ping 10.244.1.2
wget -qO- http://nginx-service

27.1.5 经验总结

预防措施：

定期检查BGP连接状态
监控网络策略配置
建立网络连通性测试
制定网络故障预案

27.2 案例2：高并发Web服务性能问题

27.2.1 问题描述

环境：

Nginx负载均衡器
3台Web服务器
1台数据库服务器
日访问量100万PV

现象：

响应时间超过5秒
大量502错误
服务器CPU使用率100%
数据库连接超时

27.2.2 排查过程

1. 性能监控

# 检查系统负载
top
htop

# 检查网络状态
iftop -i eth0
nload eth0

# 检查连接数
ss -tuln | wc -l
netstat -an | grep :80 | wc -l

2. 应用分析

# 检查Nginx状态
nginx -t
systemctl status nginx

# 检查Nginx配置
cat /etc/nginx/nginx.conf

# 检查Nginx日志
tail -f /var/log/nginx/access.log
tail -f /var/log/nginx/error.log

3. 数据库分析

# 检查数据库状态
systemctl status mysql

# 检查数据库连接
mysql -u root -p
SHOW PROCESSLIST;
SHOW STATUS LIKE 'Threads_connected';

27.2.3 问题根因

发现的问题：

Nginx工作进程数不足
数据库连接池配置不当
网络缓冲区设置过小
缺少缓存机制

根本原因：

配置参数不适合高并发场景
缺少性能优化
没有监控和告警

27.2.4 解决方案

1. 优化Nginx配置

# nginx.conf
worker_processes auto;
worker_connections 65535;

events {
    use epoll;
    multi_accept on;
}

http {
    sendfile on;
    tcp_nopush on;
    tcp_nodelay on;
    
    # 增加缓冲区
    client_body_buffer_size 128k;
    client_max_body_size 10m;
    client_header_buffer_size 1k;
    large_client_header_buffers 4 4k;
    
    # 启用gzip
    gzip on;
    gzip_vary on;
    gzip_min_length 1024;
    gzip_types text/plain text/css application/json application/javascript text/xml application/xml application/xml+rss text/javascript;
}

2. 优化数据库配置

# my.cnf
[mysqld]
max_connections = 1000
innodb_buffer_pool_size = 2G
innodb_log_file_size = 256M
innodb_flush_log_at_trx_commit = 2
query_cache_size = 256M
query_cache_type = 1

3. 优化系统参数

# 优化TCP参数
echo 'net.core.somaxconn = 65535' >> /etc/sysctl.conf
echo 'net.ipv4.tcp_max_syn_backlog = 65535' >> /etc/sysctl.conf
echo 'net.core.netdev_max_backlog = 5000' >> /etc/sysctl.conf
sysctl -p

4. 添加缓存

# 添加Redis缓存
upstream backend {
    server 192.168.1.10:8080;
    server 192.168.1.11:8080;
    server 192.168.1.12:8080;
}

server {
    location / {
        # 使用Redis缓存
        proxy_cache redis_cache;
        proxy_cache_valid 200 302 10m;
        proxy_cache_valid 404 1m;
        proxy_pass http://backend;
    }
}

27.2.5 效果验证

性能提升：

响应时间从5秒降到200ms
502错误从5%降到0.1%
CPU使用率从100%降到60%
支持并发用户数从1000提升到10000

27.3 案例3：微服务网络延迟问题

27.3.1 问题描述

环境：

Kubernetes集群
微服务架构
使用Istio服务网格
100+个微服务

现象：

服务间调用延迟高
超时错误频繁
链路追踪显示网络延迟
用户体验差

27.3.2 排查过程

1. 链路追踪分析

# 使用Jaeger分析
# 查看服务调用链路
# 识别延迟节点

2. 网络分析

# 检查网络延迟
ping -c 100 service-ip
mtr service-ip

# 检查网络统计
cat /proc/net/dev
cat /proc/net/snmp

3. 服务分析

# 检查服务配置
kubectl get svc
kubectl get endpoints

# 检查Pod状态
kubectl get pods -o wide
kubectl describe pod pod-name

27.3.3 问题根因

发现的问题：

服务发现延迟
负载均衡配置不当
网络策略过于复杂
缺少连接池

根本原因：

服务网格配置不当
网络策略影响性能
缺少性能优化

27.3.4 解决方案

1. 优化Istio配置

# 优化Envoy配置
apiVersion: networking.istio.io/v1alpha3
kind: DestinationRule
metadata:
  name: service-destination-rule
spec:
  host: service-name
  trafficPolicy:
    connectionPool:
      tcp:
        maxConnections: 100
      http:
        http1MaxPendingRequests: 50
        maxRequestsPerConnection: 10
    loadBalancer:
      simple: ROUND_ROBIN

2. 优化网络策略

# 简化网络策略
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: allow-all
spec:
  podSelector: {}
  policyTypes:
  - Ingress
  - Egress
  ingress:
  - {}
  egress:
  - {}

3. 添加连接池

# 配置连接池
apiVersion: v1
kind: ConfigMap
metadata:
  name: service-config
data:
  config.yaml: |
    database:
      connection_pool:
        min_connections: 10
        max_connections: 100
        connection_timeout: 30s
        idle_timeout: 300s

27.3.5 效果验证

性能提升：

服务调用延迟从500ms降到50ms
超时错误从10%降到0.1%
服务可用性从95%提升到99.9%
用户体验显著改善

27.4 案例4：容器网络性能优化

27.4.1 问题描述

环境：

Docker容器环境
使用bridge网络
运行数据库和Web服务
高并发场景

现象：

容器间通信延迟高
网络吞吐量低
CPU使用率高
内存使用率高

27.4.2 排查过程

1. 网络分析

# 检查Docker网络
docker network ls
docker network inspect bridge

# 检查容器网络
docker exec container-name ip addr show
docker exec container-name ip route show

2. 性能分析

# 检查系统性能
top
htop
iostat -x 1

# 检查网络性能
iftop -i docker0
nload docker0

3. 容器分析

# 检查容器状态
docker stats
docker exec container-name ss -tuln
docker exec container-name netstat -tuln

27.4.3 问题根因

发现的问题：

使用默认bridge网络
缺少网络优化
容器资源限制不当
缺少网络监控

根本原因：

网络配置不适合高并发
缺少性能优化
资源分配不合理

27.4.4 解决方案

1. 优化Docker网络

# 创建自定义网络
docker network create --driver bridge \
  --subnet=172.20.0.0/16 \
  --ip-range=172.20.240.0/20 \
  --gateway=172.20.0.1 \
  custom-network

# 使用自定义网络
docker run --network custom-network nginx

2. 优化容器配置

# docker-compose.yml
version: '3'
services:
  web:
    image: nginx
    networks:
      - custom-network
    sysctls:
      - net.core.somaxconn=65535
      - net.ipv4.tcp_max_syn_backlog=65535
    ulimits:
      nofile:
        soft: 65535
        hard: 65535

networks:
  custom-network:
    driver: bridge
    ipam:
      config:
        - subnet: 172.20.0.0/16

3. 优化系统参数

# 优化系统参数
echo 'net.core.somaxconn = 65535' >> /etc/sysctl.conf
echo 'net.ipv4.tcp_max_syn_backlog = 65535' >> /etc/sysctl.conf
echo 'net.core.netdev_max_backlog = 5000' >> /etc/sysctl.conf
sysctl -p

27.4.5 效果验证

性能提升：

容器间通信延迟从100ms降到10ms
网络吞吐量提升3倍
CPU使用率从100%降到60%
内存使用率从90%降到70%

27.5 案例5：云原生网络架构优化

27.5.1 问题描述

环境：

云原生环境
使用Cilium网络插件
运行微服务
需要高性能网络

现象：

网络延迟高
吞吐量低
资源使用率高
扩展性差

27.5.2 排查过程

1. 网络分析

# 检查Cilium状态
cilium status
cilium node list
cilium service list

# 检查网络性能
cilium connectivity test

2. 性能分析

# 检查系统性能
top
htop
iostat -x 1

# 检查网络性能
iftop -i eth0
nload eth0

3. 配置分析

# 检查Cilium配置
kubectl get configmap cilium-config -n kube-system -o yaml
kubectl get daemonset cilium -n kube-system -o yaml

27.5.3 问题根因

发现的问题：

使用默认配置
缺少性能优化
网络策略复杂
缺少监控

根本原因：

配置不适合生产环境
缺少性能调优
网络架构不合理

27.5.4 解决方案

1. 优化Cilium配置

# cilium-config.yaml
apiVersion: v1
kind: ConfigMap
metadata:
  name: cilium-config
  namespace: kube-system
data:
  # 启用eBPF
  bpf-enabled: "true"
  
  # 优化性能
  bpf-map-dynamic-size-ratio: "0.0025"
  bpf-policy-map-max: "16384"
  bpf-lb-map-max: "65536"
  bpf-lb-acceleration: "native"
  
  # 启用监控
  enable-hubble: "true"
  enable-hubble-grpc: "true"
  enable-hubble-metrics: "true"

2. 优化网络策略

# 简化网络策略
apiVersion: cilium.io/v2
kind: CiliumNetworkPolicy
metadata:
  name: allow-all
spec:
  endpointSelector: {}
  egress:
  - {}
  ingress:
  - {}

3. 添加监控

# 启用Hubble监控
apiVersion: v1
kind: Service
metadata:
  name: hubble-ui
  namespace: kube-system
spec:
  type: LoadBalancer
  ports:
  - port: 80
    targetPort: 8080
  selector:
    k8s-app: hubble-ui