Linux系统 2023-07-22

优化Linux负载跟踪：算法技巧分享 (负载跟踪算法linux)

随着技术的发展，现在越来越多的应用程序需要实时线上分析大量的数据，这对系统的负载跟踪提出了更高的要求。在Linux环境中，负载跟踪是一个必不可少的工具，因为它可以帮助我们找到系统的瓶颈，进而解决性能问题。然而，负载跟踪也有一些问题，比如跟踪增加了额外的开销，可能会导致系统性能下降。因此，我们需要一些算法技巧来优化Linux负载跟踪。

1. 查找与过滤关键信息

在大规模数据处理中，我们需要找到关键信息并从中提取出必要的提示。在负载跟踪中，我们可以通过过滤出关键参数来减少系统开销。例如，在系统负载高的情况下，我们可能需要知道负载的来源（例如CPU利用率、网络IO、磁盘IO等），而不需要知道每个进程的详细信息。

2. 使用采样技术

跟踪各种系统组件的指标会导致大量的数据，这些数据可能会带来显著的负载开销。在这种情况下，目标是减少跟踪开销同时又能够获取足够的数据来分析问题。随机采样技术是这种情况下的更佳选择。例如，我们可以随机地收集CPU利用率数据，而不是跟踪每个CPU时间片的详细信息。这种方法会显著减少跟踪开销，并可以得到足够的数据来分析常见的性能问题。

3. 添加过滤器

过滤器允许我们过滤掉我们不感兴趣的负载数据，从而进一步减少开销。例如，我们可能只对CPU利用率> 50％的进程感兴趣，因此我们可以使用过滤器来过滤掉低于50％的进程。通过这种方式，可以大大减少负载跟踪数据量，并且不会错过重要信息。

4. 使用有限的资源

负载跟踪可能占用大量的系统资源，因此需要优化并限制跟踪的大小。这可以通过在跟踪过程中设置资源限制来实现，例如更大可用内存和更大CPU使用时间。这样，跟踪过程将在内存使用达到限制或CPU使用达到限制时终止。这种方法可以防止负载跟踪过程影响系统的整体性能，并且可以有效地利用系统资源。

5. 使用分布式跟踪

在分布式系统中，负载跟踪可能会变得更加复杂，因为负载数据分散在多个不同的节点上。在这种情况下，分布式负载跟踪是必不可少的工具。可以使用分布式架构来跟踪不同节点的负载数据，并将这些数据集中到一个单一的数据库中进行分析。由于负载数据是在多个节点中跟踪的，因此需要建立稳定的网络基础设施来传输和存储数据。但是，这种方法可以减少单个节点上的开销，并使跟踪数据的处理更加高效。

结论

Linux负载跟踪是系统优化的重要组成部分，可以帮助我们解决常见问题，提高应用程序的性能。但是，在跟踪过程中，需要避免因过多数据而对系统造成的负担。通过使用一些算法技巧，可以大大优化Linux负载跟踪，并提高跟踪效率。因此，系统管理员需要了解这些技巧，并在必要时使用它们，以更大程度地提高系统性能。

相关问题拓展阅读：

如何查看Linux 服务器的负载信息
Linux里面uptime命令作用是什么？

如何查看Linux 服务器的负载信息

方法一：

　　通过top命令来查看服务器负载

　　再对此Linux服务器性能分析之前，先了解下Linux系统Load average负载的知识，负载均值在 uptime 或者top 命令中可以看到

　　方法二：输入 iostat -x -k -t

　　说明：%util: 一秒中有百分之多少的时间用于 I/O 操作，或者说一秒中有多少时间 I/O 队列是非空的。

　　即 delta(use)/s/1000 (因为use的单位为毫秒)

　　如果 %util 接近 100%，说明产生的I/O请求太多，I/O系统已经满负荷，该磁盘可能存在瓶颈。

　　方法三：

　　如果玩游戏很卡，可以用hdparm –t /dev/磁盘名称来测试磁盘性能是否达标

　　说明：sd表示硬盘是SATA，SCSI或者SAS，a表示串口的之一块硬盘

Linux里面uptime命令作用是什么？

linux中uptime命令查看linux系统负载

# uptime

11:45:25 up 5 days, 13:20, 3 users, load average: 0.00, 0.01, 0.05

uptime内容显示的内容一次是系统时间，开机到现在的天数，用户登录数，以及平均负载。

核心是平均负载，其实就是【单位时间内的活跃进程数】。

2颗，单颗4核CPU为例：

1分钟：10.00 #CPU处理进程1分钟的繁忙程度，忙碌1分钟。

5分钟：8.01 #CPU处理进程5分钟的繁忙程度，忙碌了5分钟

15分钟：5.05 #CPU处理进程15分钟的繁忙程度，忙碌持续15分钟，15分钟内平均值5.

uptime:故障恢复了。

1分钟：1.00 #CPU处理进程1分钟的繁忙程度，忙碌1分钟。

5分钟：8.01 #CPU处理进程5分钟的繁忙程度，忙碌了5分钟

15分钟：5.05 #CPU处理进程15分钟的繁忙程度，忙碌持续15分钟，15分钟内平均值5.

==============================================

总结：15分钟负载值12，是高是低呢

负载数值/总的核心数=1 #开始慢的临界点，实际上1*70%==关注的临界点。

12/8=1.2 大于1就说明有问题。

负载不要超过5，是临界点。

2颗单颗4核CPU，共8核，负载就是8*70%=5左右。

需要关注负载的值：总的核心数*70%=关注的点

==================要掌握的============================

1.平均负载是运行队列中活跃的进程数。

2.平均负载，1,5,15分钟内的负载。

3.需要关注负载的值：总的核心数*70%=关注的点

4.辅助top,ps,uptime,sar,mpstat,pidstat,iostat，排查问题。

5.strace跟踪进程系统调用。

6.记住几个案例（面试讲故事）。

面试官问：

你在工作中遇到过哪些生产故障，是怎么解决的？

更好和数据库相关（负载高），和web相关（PHP进程100%,JAVA内存泄漏）

==================要掌握的============================

***6.平均负载案例分析实战\***

下面，我们以三个示例分别来看这三种情况，并用 stress、mpstat、pidstat 等工具，找出平均负载升高的根源。

stress 是 Linux 系统压力测试工具，这里我们用作异常进程模拟平均负载升高的场景。

mpstat 是多核 CPU 性能分析工具，用来实时查看每个 CPU 的性能指标，以及所有 CPU 的平均指标。

pidstat 是一个常用的进程性能分析工具，用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标。

#如果出现无法使用mpstat、pidstat命令查看%wait指标建议更新下软件包

yum install sysstats -y

yum install stress -y

stress –cpu 8 –io 4 –vm 2 –vm-bytes 128M –timeout 10s

***场景一：CPU 密集型进程\***

1.首先，我们在之一个终端运行 stress 命令，模拟一个 CPU 使用率 100% 的场景：

# stress –cpu 1 –timeout 600

2.接着，在第二个终端运行 uptime 查看平均负载的变化情况

# 使用watch -d 参数表示高亮显示变化的区域(注意负载会持续升高)

# watch -d uptime

*3.最后，在第三个终端运行 mpstat 查看 CPU 使用率的变化情况*

# -P ALL 表示监控所有CPU，后面数字5 表示间隔5秒后输出一组数据

# mpstat -P ALL 5

#单核CPU,所以只有一个all和0

4.从终端二中可以看到，1 分钟的平均负载会慢慢增加到 1.00，而从终端三中还可以看到，正好有一个 CPU 的使用率为 100%，但它的 iowait 只有 0。这说明，平均负载的升高正是由于 CPU 使用率为 100% 。那么，到底是哪个进程导致了 CPU 使用率为 100% 呢？可以使用 pidstat 来查询

!(18.Linux系统管理-进程管理.assets/a.png)

# 间隔5秒输出一组数据

# pidstat -u 5 1

#从这里可以明显看到，stress进程的CPU使用率为100%。

– 模拟cpu负载高 `stress –cpu 1 –timeout 100`

– 通过uptime或w 查看 `watch -d uptime`

– 查看整体状态mpstat -P ALL 1 查看每个cpu核心使用率

– 精确到进程： pidstat 1

****场景二：I/O 密集型进程\****

1.首先还是运行 stress 命令，但这次模拟 I/O 压力，即不停地执行 sync

# stress –io 1 –timeout 600s #利用sync()

stress –hddhdd-bytes 1g # hd harkdisk 创建进程去进程写

*2.然后在第二个终端运行 uptime 查看平均负载的变化情况：*

# watch -d uptime

18:43:51 up 2 days, 4:27, 3 users, load average: 1.12, 0.65, 0.00

*3.最后第三个终端运行 mpstat 查看 CPU 使用率的变化情况：*

# 显示所有 CPU 的指标，并在间隔 5 秒输出一组数据

# mpstat -P ALL 5

#会发现cpu的与内核打交道的sys占用非常高

*4.那么到底是哪个进程，导致 iowait 这么高呢？我们还是用 pidstat 来查询*

# 间隔5秒后输出一组数据，-u 表示CPU指标

# pidstat -u 5 1

#可以发现，还是 stress 进程导致的。

– 通过stress 模拟大量进程读写 `stress –hdd 4 `

– 通过w/uptime查看系统负载信息 `watch -d uptime`

– 通过top/mpstat 排查 `mpstat -P ALL 1 或 top 按1`

– 确定是iowati `iostat 1查看整体磁盘读写情况或iotop -o 查看具体哪个进程读写`

– 根据对应的进程,进行相关处理.

***场景三：大量进程的场景高并发场景 \***

*当系统中运行进程超出 CPU 运行能力时，就会出现等待 CPU 的进程。*

*1.首先，我们还是使用 stress，但这次模拟的是 4 个进程*

# stress -c 4 –timeout 600

*2.由于系统只有 1 个 CPU，明显比 4 个进程要少得多，因而，系统的 CPU 处于严重过载状态*

*3.然后，再运行 pidstat 来看一下进程的情况：*

# 间隔5秒后输出一组数据

# pidstat -u 5 1

*可以看出，4 个进程在争抢 1 个 CPU，每个进程等待 CPU 的时间（也就是代码块中的 %wait 列）高达 75%。这些超出 CPU 计算能力的进程，最终导致 CPU 过载。*

****分析完这三个案例，我再来归纳一下平均负载与CPU\****

***平均负载提供了一个快速查看系统整体性能的手段，反映了整体的负载情况。但只看平均负载本身，我们并不能直接发现，到底是哪里出现了瓶颈。所以，在理解平均负载时，也要注意：

平均负载高有可能是 CPU 密集型进程导致的；

平均负载高并不一定代表 CPU 使用率高，还有可能是 I/O 更繁忙了；

当发现负载高的时候，你可以使用 mpstat、pidstat 等工具，辅助分析负载的来源****

**系统负载的计算和意义**

进程以及子进程和线程产生的计算指令都会让cpu执行,产生请求的这些进程组成”运行队列”,等待cpu执行,这个队列就是系统负载, 系统负载是所有cpu的运行队列的总和.

# w

20:25:48 up 95 days, 9:06, 1 user, load average: 2.92, 0.00, 0.00

//假设当前计算机有4个核心的cpu,当前的负载是2.92

cpu1cpu2cpu3cpu4

2.94/4(个cpu核心) = 73%的cpu资源被使用,剩下27%的cpu计算资源是空想的

//假设当前的计算有2个核心的cpu,当前的负载是2.92

2.92/2 = 146% 已经验证超过了cpu的处理能力

7. 日常故障排查流程(含日志)

– w/uptime, 查看负载

– ps aux/top 看看 cpu百分比, io wait或者是内存占用的高? (三高 cpu,io,内存)

– top检查具体是哪个进程,找出可疑进程

– 追踪这个进程使用情况,做什么的?

– 看看对应**日志**是否有异常

– 系统日志: /var/log/messages(系统通用日志) /var/log/secure(用户登录情况)

– 服务软件的日志

***3.那平均负载为多少时合理\***

*最理想的状态是每个 CPU核心上都刚好运行着一个进程，这样每个 CPU 都得到了充分利用。所以在评判平均负载时，首先你要知道系统有几个 CPU核心，这可以通过 top 命令获取，或`grep ‘model name’ /proc/cpuinfo`*

系统平均负载被定义为在特定时间间隔内运行队列中的平均进程数。如果一个进程满足以下条件则其就会位于运行队列中：

– 它没有在等待I/O操作的结果

– 它没有主动进入等待状态(也就是没有调用’wait’)

– 没有被停止(例如：等待终止)

《内容来自老男孩老师的课堂笔记》

使用方式： uptime

说明： uptime 提供使用者下面的资讯，不需其他参数：

现在的时间

系统开机运转到现在经过的时间

连线的使用者数量

负载跟踪算法linux的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于负载跟踪算法linux,优化Linux负载跟踪：算法技巧分享,如何查看Linux 服务器的负载信息,Linux里面uptime命令作用是什么？的信息别忘了在本站进行查找喔。

数据运维技术 » 优化Linux负载跟踪：算法技巧分享 (负载跟踪算法linux)

分享到：

如何查看Linux 服务器的负载信息

Linux里面uptime命令作用是什么？

相关推荐