系统性能分析方法论

章节概述

系统性能分析是一门艺术，需要系统性的方法论和丰富的实战经验。本章将介绍一套完整的性能分析方法论，从问题发现到根因定位，再到性能优化，帮助读者建立系统化的性能分析能力。

学习目标：

掌握系统性能分析的完整流程
学会使用各种性能分析工具
能够快速定位性能瓶颈
建立性能优化的方法论体系

核心概念

1. 性能分析的层次模型

┌─────────────────────────────────────┐
│        应用层                        │
│  代码逻辑、算法、数据结构            │
└──────────┬──────────────────────────┘
           │
┌──────────▼──────────────────────────┐
│      Runtime层                       │
│  GC、调度器、内存管理                │
└──────────┬──────────────────────────┘
           │
┌──────────▼──────────────────────────┐
│      系统调用层                      │
│  文件IO、网络IO、进程管理            │
└──────────┬──────────────────────────┘
           │
┌──────────▼──────────────────────────┐
│      内核层                          │
│  调度器、内存管理、网络栈            │
└──────────┬──────────────────────────┘
           │
┌──────────▼──────────────────────────┐
│      硬件层                          │
│  CPU、内存、磁盘、网卡               │
└─────────────────────────────────────┘

2. 性能瓶颈的四大根源

┌─────────────────────────────────────┐
│           CPU瓶颈                    │
│  - CPU利用率100%                    │
│  - 大量计算密集型任务                │
│  - 上下文切换频繁                    │
└─────────────────────────────────────┘

┌─────────────────────────────────────┐
│          内存瓶颈                    │
│  - 内存不足                          │
│  - 频繁swap                          │
│  - 内存泄漏                          │
└─────────────────────────────────────┘

┌─────────────────────────────────────┐
│          磁盘IO瓶颈                  │
│  - IO等待时间长                      │
│  - 磁盘利用率高                      │
│  - 大量随机IO                        │
└─────────────────────────────────────┘

┌─────────────────────────────────────┐
│          网络瓶颈                    │
│  - 带宽打满                          │
│  - 连接数过多                        │
│  - 网络延迟高                        │
└─────────────────────────────────────┘

3. 性能分析三步法

第一步：宏观观察

使用工具: top, vmstat, iostat, sar
目标: 确定问题在哪一类资源上

第二步：局部定位

使用工具: pidstat, iotop, nethogs, perf
目标: 定位到具体进程和热点

第三步：微观追踪

使用工具: strace, perf, bpftrace, pprof
目标: 定位到具体函数和代码行

工具链详解

1. CPU性能分析工具链

graph TD
    A[CPU性能问题] --> B{CPU使用率?}
    B -->|100%| C[perf top定位热点]
    B -->|低但慢| D[IO wait检查]
    C --> E[perf record生成火焰图]
    E --> F[分析热点函数]
    D --> G[iostat检查IO]

工具使用：

# 1. top - 快速概览
top
# 按1查看每个CPU的使用率
# 按H查看线程视图

# 2. vmstat - 系统级统计
vmstat 1 10
# 观察r列（运行队列长度）和cs列（上下文切换）

# 3. pidstat - 进程级CPU统计
pidstat -u 1 10
# -u: CPU使用率
# -w: 上下文切换
# -t: 线程级统计

# 4. perf top - 实时热点
sudo perf top -p <pid>
# 显示实时的函数调用热点

# 5. perf record + report - 详细分析
sudo perf record -F 99 -p <pid> -g -- sleep 30
sudo perf report --stdio
# -F 99: 99Hz采样
# -g: 记录调用栈

# 6. 生成火焰图
sudo perf record -F 99 -p <pid> -g -- sleep 30
sudo perf script | stackcollapse-perf.pl | flamegraph.pl > cpu.svg

2. 内存性能分析工具链

# 1. free - 内存总览
free -h
# 观察可用内存和swap使用

# 2. vmstat - 内存统计
vmstat 1
# 观察si/so（swap in/out）

# 3. pmap - 进程内存映射
pmap -x <pid>
# 查看进程的内存布局

# 4. smem - 精确内存统计
smem -r -s pss
# PSS: 比例集大小
# USS: 唯一集大小

# 5. valgrind - 内存泄漏检测
valgrind --leak-check=full --show-leak-kinds=all ./program

# 6. heaptrack - 堆内存分析（更快）
heaptrack ./program
heaptrack_print heaptrack.program.pid.gz

3. 磁盘IO性能分析工具链

# 1. iostat - IO统计
iostat -x 1 10
# -x: 扩展统计
# 观察%util和await

# 2. iotop - 进程级IO
sudo iotop -oP
# -o: 只显示有IO的进程
# -P: 显示进程而非线程

# 3. pidstat - 进程IO统计
pidstat -d 1
# -d: 磁盘IO统计

# 4. biolatency - IO延迟分布（eBPF）
sudo biolatency 10
# 显示IO延迟的直方图

# 5. biosnoop - 追踪每个IO（eBPF）
sudo biosnoop
# 实时显示每个块设备IO

# 6. fio - IO性能测试
fio --name=randread --rw=randread --bs=4k --size=1G \
    --numjobs=4 --runtime=60 --group_reporting

4. 网络性能分析工具链

# 1. ss - socket统计
ss -s
# 显示TCP连接统计

ss -tan
# 显示所有TCP连接

ss -ti
# 显示TCP详细信息（RTT、拥塞窗口等）

# 2. netstat - 网络统计
netstat -s | grep -i tcp
# TCP统计信息

# 3. iftop - 网络流量
sudo iftop -i eth0
# 实时显示网络流量

# 4. tcpdump - 抓包
sudo tcpdump -i eth0 -nn port 80 -w capture.pcap
# -nn: 不解析地址和端口
# -w: 写入文件

# 5. iperf3 - 网络性能测试
# 服务端
iperf3 -s

# 客户端
iperf3 -c server_ip -t 60 -P 4
# -t: 测试时间
# -P: 并行连接数

# 6. tcpretrans - TCP重传追踪（eBPF）
sudo tcpretrans
# 实时显示TCP重传

实战案例分析

案例1：CPU使用率100%但吞吐量低

症状：

top显示CPU 100%
应用QPS很低
用户反馈响应慢

分析流程：

# 步骤1：确认CPU使用情况
top
# 观察：%us高还是%sy高？

# 步骤2：查看进程详情
pidstat -u -p <pid> 1
# 观察用户态和内核态CPU占比

# 步骤3：查看上下文切换
pidstat -w -p <pid> 1
# 如果nvcswch/s很高，说明CPU竞争激烈

# 步骤4：生成CPU火焰图
sudo perf record -F 99 -p <pid> -g -- sleep 30
sudo perf script | stackcollapse-perf.pl | flamegraph.pl > cpu.svg

# 步骤5：分析火焰图
# 查找占用CPU最多的函数
# 常见问题：
# - 死循环
# - 大量锁竞争（semacquire、futex）
# - GC频繁（Go程序）
# - 系统调用频繁

可能的原因和解决方案：

原因	症状	解决方案
死循环	单个函数占用大量CPU	修复代码逻辑
锁竞争	futex/semacquire热点	减少锁粒度或使用无锁结构
Goroutine过多	runtime.schedule热点	使用goroutine池
GC频繁	runtime.gcBgMarkWorker热点	减少内存分配
系统调用频繁	syscall相关函数热点	批量操作、使用缓冲

案例2：内存持续增长

症状：

内存使用持续上升
最终OOM或swap频繁
性能逐渐下降

分析流程：

# 步骤1：确认内存增长
free -h
watch -n 1 free -h

# 步骤2：定位进程
smem -r | head -20
# 或
ps aux --sort=-%mem | head -20

# 步骤3：查看进程内存详情
pmap -x <pid>
# 观察heap的大小变化

# 步骤4：内存泄漏检测
valgrind --leak-check=full --show-leak-kinds=all ./program

# 对于Go程序
go tool pprof http://localhost:6060/debug/pprof/heap

# 步骤5：追踪内存分配
sudo perf record -e syscalls:sys_enter_mmap -p <pid> -- sleep 30
sudo perf script

可能的原因和解决方案：

原因	解决方案
内存泄漏	使用valgrind或pprof定位泄漏点
缓存无限增长	设置缓存大小上限
大对象未释放	检查对象生命周期
循环引用	打破引用环

案例3：高IO等待

症状：

vmstat显示wa（io wait）高
CPU idle高但应用慢
iostat显示%util接近100%

分析流程：

# 步骤1：确认IO问题
vmstat 1
# 观察wa列

# 步骤2：查看磁盘IO
iostat -x 1
# 观察%util、await、avgqu-sz

# 步骤3：定位IO进程
sudo iotop -oP
# 找出IO使用最高的进程

# 步骤4：查看进程IO详情
pidstat -d -p <pid> 1
# 观察kB_rd/s和kB_wr/s

# 步骤5：分析IO模式
sudo biosnoop -p <pid>
# 查看是顺序IO还是随机IO

# 步骤6：IO延迟分析
sudo biolatency -p <pid> 10
# 查看IO延迟分布

可能的原因和解决方案：

原因	解决方案
大量随机读写	优化为顺序IO或使用SSD
小IO太多	增大IO块大小
PageCache未命中	增加内存或优化访问模式
磁盘慢	更换SSD或调整IO调度器

案例4：网络延迟高

症状：

请求延迟波动大
p99延迟很高
偶尔出现超时

分析流程：

# 步骤1：检查网络连接
ss -s
# 观察TCP连接状态分布

# 步骤2：查看TCP详情
ss -ti
# 观察rtt、cwnd、retrans

# 步骤3：检查重传
netstat -s | grep retrans
# 或
sudo tcpretrans

# 步骤4：抓包分析
sudo tcpdump -i eth0 -nn port 8080 -w delay.pcap
# 使用wireshark分析

# 步骤5：查看队列积压
ss -tn | grep ESTAB
# 观察Recv-Q和Send-Q

# 步骤6：网络性能测试
iperf3 -c server_ip -t 60

可能的原因和解决方案：

原因	解决方案
网络拥塞	启用BBR拥塞控制
大量TIME_WAIT	启用tcp_tw_reuse
socket缓冲区小	调大tcp_rmem/wmem
应用层阻塞	使用异步IO或增加worker

️ 性能分析脚本

1. 综合性能检查脚本

#!/bin/bash
# performance_check.sh - 系统性能快速检查

echo "===== 系统性能检查报告 ====="
echo "时间: $(date)"
echo ""

echo "1. CPU使用情况"
echo "----------------"
top -bn1 | head -n 20
echo ""

echo "2. 内存使用情况"
echo "----------------"
free -h
echo ""

echo "3. 磁盘IO情况"
echo "----------------"
iostat -x 1 3 | tail -n +4
echo ""

echo "4. 网络连接情况"
echo "----------------"
ss -s
echo ""

echo "5. 负载平均"
echo "----------------"
uptime
echo ""

echo "6. TOP进程（按CPU）"
echo "----------------"
ps aux --sort=-%cpu | head -10
echo ""

echo "7. TOP进程（按内存）"
echo "----------------"
ps aux --sort=-%mem | head -10
echo ""

echo "8. 磁盘使用"
echo "----------------"
df -h | grep -v tmpfs
echo ""

echo "===== 检查完成 ====="

2. 性能基线采集脚本

#!/bin/bash
# baseline_collect.sh - 采集系统性能基线

DURATION=600  # 10分钟
OUTPUT_DIR="baseline_$(date +%Y%m%d_%H%M%S)"

mkdir -p "$OUTPUT_DIR"
cd "$OUTPUT_DIR"

echo "开始采集性能基线，持续${DURATION}秒..."

# CPU
sar -u 1 $DURATION > cpu.log &

# 内存
sar -r 1 $DURATION > memory.log &

# IO
iostat -x 1 $DURATION > io.log &

# 网络
sar -n DEV 1 $DURATION > network.log &

# 进程
while true; do
    ps aux --sort=-%cpu | head -20 >> processes.log
    sleep 10
done &
PID_PS=$!

# 等待采集完成
sleep $DURATION

# 停止进程采集
kill $PID_PS

echo "基线采集完成，结果保存在 $OUTPUT_DIR/"