常见问题与故障排查

概述

在容器开发和运维过程中，经常会遇到各种问题。本文档整理了常见的问题类型、排查思路和解决方案，帮助您快速定位和解决问题。

问题分类

1. 权限问题

问题描述

容器启动失败，提示权限不足
无法访问某些系统资源
网络配置失败

排查步骤

检查 Capabilities

# 查看当前进程的 capabilities
cat /proc/self/status | grep Cap

# 查看容器的 capabilities
cat /proc/<container_pid>/status | grep Cap

检查用户权限

# 检查是否以 root 用户运行
whoami

# 检查用户组
groups

检查文件权限

# 检查关键文件的权限
ls -la /proc/sys/kernel/ns_last_pid
ls -la /sys/fs/cgroup/

解决方案

确保以 root 用户运行容器
添加必要的 capabilities
检查文件系统权限

2. 网络问题

问题描述

容器无法访问网络
容器间无法通信
端口映射失败

排查步骤

检查网络命名空间

# 查看网络命名空间
ip netns list

# 进入容器的网络命名空间
ip netns exec <namespace> ip addr

检查网络接口

# 查看 veth 对
ip link show type veth

# 检查网桥状态
brctl show

检查路由表

# 查看路由表
ip route show

# 检查 NAT 规则
iptables -t nat -L

解决方案

重新创建网络命名空间
检查 veth 对配置
验证 iptables 规则

3. 文件系统问题

问题描述

容器无法访问文件
文件系统挂载失败
镜像层损坏

排查步骤

检查挂载点

# 查看挂载信息
mount | grep overlay

# 检查文件系统类型
df -T

检查 OverlayFS

# 查看 overlay 挂载
cat /proc/mounts | grep overlay

# 检查各层目录
ls -la /var/lib/container/overlay/

检查文件权限

# 检查文件所有者
ls -la /var/lib/container/rootfs/

解决方案

重新挂载文件系统
检查镜像完整性
修复文件权限

4. 资源限制问题

问题描述

容器被 OOM 杀死
CPU 使用率异常
内存泄漏

排查步骤

检查 Cgroup 配置

# 查看内存限制
cat /sys/fs/cgroup/memory/container/memory.limit_in_bytes

# 查看 CPU 限制
cat /sys/fs/cgroup/cpu/container/cpu.cfs_quota_us

监控资源使用

# 实时监控内存使用
watch -n 1 'cat /sys/fs/cgroup/memory/container/memory.usage_in_bytes'

# 查看进程资源使用
top -p <container_pid>

检查系统日志

# 查看 OOM 日志
dmesg | grep -i oom

# 查看系统日志
journalctl -f

解决方案

调整资源限制
优化应用程序
检查内存泄漏

调试工具

1. 系统工具

strace

# 跟踪系统调用
strace -f -e trace=network,file,process ./container

# 跟踪特定进程
strace -p <pid>

gdb

# 调试容器进程
gdb -p <container_pid>

# 设置断点
(gdb) break main
(gdb) continue

tcpdump

# 抓取网络包
tcpdump -i any -n

# 抓取特定接口
tcpdump -i veth0 -n

2. 容器专用工具

nsenter

# 进入容器的命名空间
nsenter -t <pid> -n ip addr
nsenter -t <pid> -m ls /

crictl

# 查看容器状态
crictl ps

# 查看容器日志
crictl logs <container_id>

docker

# 查看容器信息
docker inspect <container_id>

# 进入容器
docker exec -it <container_id> /bin/bash

性能调优

1. 网络性能

优化网络配置

# 调整网络缓冲区
echo 'net.core.rmem_max = 16777216' >> /etc/sysctl.conf
echo 'net.core.wmem_max = 16777216' >> /etc/sysctl.conf

# 启用 TCP 快速打开
echo 'net.ipv4.tcp_fastopen = 3' >> /etc/sysctl.conf

使用高性能网络模式

使用 host 网络模式
配置 SR-IOV
使用 DPDK

2. 存储性能

优化文件系统

# 使用 ext4 文件系统
mkfs.ext4 -F /dev/sdb

# 调整挂载选项
mount -o noatime,nodiratime /dev/sdb /var/lib/container

使用高性能存储

使用 SSD
配置 RAID
使用分布式存储

3. 内存优化

调整内存管理

# 调整 swap 使用
echo 'vm.swappiness = 10' >> /etc/sysctl.conf

# 调整内存回收
echo 'vm.vfs_cache_pressure = 50' >> /etc/sysctl.conf

使用内存优化技术

启用透明大页
使用内存压缩
配置内存回收

安全加固

1. 权限最小化

限制 Capabilities

// 只保留必要的 capabilities
caps := []string{
    "CAP_NET_ADMIN",
    "CAP_SYS_ADMIN",
    "CAP_SYS_PTRACE",
}

使用非 root 用户

// 创建非特权用户
cmd := exec.Command("useradd", "-r", "-s", "/bin/false", "container")

2. 网络隔离

配置防火墙

# 只允许必要的端口
iptables -A INPUT -p tcp --dport 80 -j ACCEPT
iptables -A INPUT -p tcp --dport 443 -j ACCEPT
iptables -A INPUT -j DROP

使用网络策略

配置 NetworkPolicy
使用服务网格
启用网络加密

3. 文件系统安全

只读根文件系统

// 挂载只读根文件系统
syscall.Mount("overlay", "/var/lib/container/rootfs", "overlay", 
    syscall.MS_RDONLY, "lowerdir=/var/lib/container/lower,upperdir=/var/lib/container/upper,workdir=/var/lib/container/work")

使用安全扫描

扫描镜像漏洞
检查文件权限
验证数字签名

监控与告警

1. 基础监控

系统指标

CPU 使用率
内存使用率
磁盘 I/O
网络流量

容器指标

容器数量
资源使用率
启动时间
错误率

2. 告警配置

阈值设置

alerts:
  - name: high_cpu_usage
    condition: cpu_usage > 80%
    duration: 5m
    action: scale_up
    
  - name: memory_leak
    condition: memory_growth > 10MB/min
    duration: 10m
    action: restart_container

通知方式

邮件通知
短信告警
钉钉/企业微信
自定义 webhook

故障恢复

1. 数据备份

定期备份

# 备份容器数据
tar -czf container_backup_$(date +%Y%m%d).tar.gz /var/lib/container/

# 备份配置文件
cp -r /etc/container/ /backup/container_config/

增量备份

# 使用 rsync 进行增量备份
rsync -av --delete /var/lib/container/ /backup/container/

2. 快速恢复

容器重建

# 停止问题容器
docker stop <container_id>

# 重新创建容器
docker run -d --name <container_name> <image>

数据恢复

# 恢复数据
tar -xzf container_backup_20231201.tar.gz -C /

# 重启服务
systemctl restart container

最佳实践

1. 开发阶段

使用版本控制
编写单元测试
进行代码审查
使用 CI/CD

2. 测试阶段

进行压力测试
模拟故障场景
验证恢复流程
性能基准测试

3. 生产阶段

监控关键指标
设置告警阈值
定期备份数据
制定应急预案