平均负载
单位时间内,系统处于可运行状态和不可中断状态的平均进程数,也就是平均活跃进程数,它和CPU使用率并没有直接关系。(不仅包括了正在使用 CPU 的进程,还包括等待 CPU 和等待 I/O 的进程)
可运行状态的进程
正在使用 CPU 或者正在等待 CPU 的进程,也就是我们常用 ps 命令看到的,处于 R 状态(Running 或 Runnable)的进程
不可中断状态的进程
正处于内核态关键流程中的进程,并且这些流程是不可打断的,比如最常见的是等待硬件设备的 I/O 响应,也就是我们在 ps 命令中看到的 D 状态(Uninterruptible Sleep,也称为 Disk Sleep)的进程
当系统变慢时,我们一般就需要去了解一下系统的平均负载情况,通常我们需要借助一些工具去辅助查看,比如:top、uptime
平均负载最理想的情况是等于 CPU 个数(CPU个数不代表CPU核数,总CPU逻辑核数=CPU核数 * CPU核数 * 超线程数)
1 | # 查看系统平均负载 |
2 | $ uptime |
3 | 19:05 up 3 days, 9:38, 4 users, load averages: 2.28 2.19 2.26 |
4 | ''' |
5 | 19:05 表示系统当前时间 |
6 | up 3 days, 9:38 表示系统运行了多长时间 |
7 | 4 users 表示当前登录的用户数(即打开的终端数) |
8 | load averages: 2.28 2.19 2.26 表示过去1分钟、5分钟、15分钟的平均负载 |
9 | ''' |
10 | |
11 | # 查看CPU核数 |
12 | $ grep 'model name' /proc/cpuinfo | wc -l |
13 | 4 |
分析
当平均负载比CPU还大时说明系统已经出现了过载情况。不过呢,CPU 使用率,是单位时间内 CPU 繁忙情况的统计,跟平均负载并不一定完全对应
- CPU 密集型进程,使用大量 CPU 会导致平均负载升高,此时这两者是一致的
- I/O 密集型进程,等待 I/O 也会导致平均负载升高,但 CPU 使用率不一定很高
- 大量等待 CPU 的进程调度也会导致平均负载升高,此时的 CPU 使用率也会比较高(虽然等待的进程不消耗CPU资源,但是进程间切换频繁会消耗大量资源)
借助工具分析负载情况
1 | # stress 是一个 Linux 系统压力测试工具,可用作异常进程模拟平均负载升高的场景 |
2 | # sysstat 包含了常用的 Linux 性能工具,用来监控和分析系统的性能 |
3 | apt install stress sysstat # ubuntu |
4 | yum install stress sysstat -y # cenos |
5 | |
6 | ''' |
7 | sysstat: |
8 | 1.mpstat 是一个常用的多核 CPU 性能分析工具,用来实时查看每个 CPU 的性能指标,以及所有 CPU 的平均指标 |
9 | 2.pidstat 是一个常用的进程性能分析工具,用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标 |
10 | ''' |
CPU压测(CPU 密集型进程)
开启多个终端进行压测,并观测实时负载情况
1
'''终端一'''
2
# 模拟CPU使用率100%场景
3
stress --cpu 1 --timeout 600
4
5
'''终端二'''
6
# -d 参数表示高亮显示变化的区域
7
watch -d uptime
8
9
'''终端三'''
10
# -P ALL 表示监控所有CPU,后面数字5表示间隔5秒后输出一组数据
11
mpstat -P ALL 5
12
13
'''终端四'''
14
# 查看进程情况
15
pidstat -u 5 1
16
17
'''
18
[root@VM_0_16_centos ~]# pidstat -u 5 1
19
Linux 3.10.0-957.21.3.el7.x86_64 (VM_0_16_centos) 2019年12月02日 _x86_64_ (4 CPU)
20
21
22时01分34秒 UID PID %usr %system %guest %CPU CPU Command
22
22时01分39秒 0 12551 0.20 0.20 0.00 0.40 0 barad_agent
23
22时01分39秒 0 14739 100.00 0.00 0.00 100.00 2 stress
24
22时01分39秒 0 14815 0.20 0.00 0.00 0.20 3 watch
25
26
PID:进程ID
27
%usr:进程在用户空间占用cpu的百分比
28
%system:进程在内核空间占用cpu的百分比
29
%guest:进程在虚拟机占用cpu的百分比
30
%CPU:进程占用cpu的百分比
31
CPU:处理进程的cpu编号
32
Command:当前进程对应的命令
33
'''
34
35
- I/O压测(**I/O 密集型进程**)
36
```python
37
# 模拟 I/O 压力,不停地执行 sync
38
stress -i 1 --timeout 600
39
40
# 查看负载变化
41
watch -d uptime
42
43
# 显示所有CPU的指标,并在间隔5秒输出一组数据
44
mpstat -P ALL 5 1
45
46
# 间隔5秒后输出一组数据,-u表示CPU指标
47
pidstat -u 5 1
大量进程(进程上下文频繁切换)
1
# 模拟8个进程
2
stress -c 8 --timeout 600
3
4
watch -d uptime
5
6
pidstat -u 5 1
7
# 可以看出下面有10个stress进程在争抢4个CPU,已经超出CPU计算能力,导致过载
8
'''
9
平均时间: UID PID %usr %system %guest %CPU CPU Command
10
平均时间: 0 637 0.00 0.20 0.00 0.20 - YDService
11
平均时间: 0 12551 0.60 0.60 0.00 1.19 - barad_agent
12
平均时间: 0 12737 0.00 0.20 0.00 0.20 - containerd
13
平均时间: 0 29841 0.20 0.00 0.00 0.20 - watch
14
平均时间: 0 32152 36.38 0.00 0.00 36.38 - stress
15
平均时间: 0 32153 46.52 0.00 0.00 46.52 - stress
16
平均时间: 0 32154 37.77 0.00 0.00 37.77 - stress
17
平均时间: 0 32155 35.79 0.00 0.00 35.79 - stress
18
平均时间: 0 32156 38.97 0.00 0.00 38.97 - stress
19
平均时间: 0 32157 39.17 0.00 0.00 39.17 - stress
20
平均时间: 0 32158 45.73 0.00 0.00 45.73 - stress
21
平均时间: 0 32159 37.97 0.00 0.00 37.97 - stress
22
平均时间: 0 32160 39.76 0.00 0.00 39.76 - stress
23
平均时间: 0 32161 38.57 0.00 0.00 38.57 - stress
24
'''