Linux系统 2023-07-11

深入探究Linux的调度机制，优化性能与资源分配 (linux 调度机制)

在现代计算机系统中，调度机制是非常重要的一部分。它是操作系统的一种重要组成部分，用于在有限的资源条件下，合理安排各个进程的执行顺序和优先级，实现系统的高效率和良好的响应性能。而在Linux操作系统中，其调度机制又是如何实现的？又该如何对其进行优化，以提高整个系统的性能和资源利用率呢？本文将从这两个方面来探讨。

一、Linux的调度机制

我们需要了解的是Linux调度器的种类。在Linux内核中有两种调度器：O（1）和CFS。O（1）调度器又称旧调度器，因为它在2.6.23版本之前一直是Linux默认的调度器，而CFS则是较新的调度器。下面我们分别来了解一下这两种调度器的特点。

1. O（1）调度器

O（1）调度器的名称中的“O（1）”表示它具有常数时间复杂度。这意味着，无论有多少个进程在系统中，它的执行时间都是一样的。它采用了基于运行队列的调度方式，将等待CPU的进程放入不同优先级的就绪队列中，并且每个队列都有一个时间片（即CPU分配给该队列的时间）来运行等待中的进程。

此外，O（1）调度器还具有以下特点：

（1）旧调度器对对称多处理（P）体系结构提供支持。每个CPU在其本地队列上执行（但不一定是运行在调度让步程序的进程）。

（2）O（1）调度器是基于优先级调度的，优先级越高的进程会获得更多的时间片。但这也导致低优先级进程可能会处于长时间等待状态。

（3）O（1）调度器可以通过修改源代码来优化调度策略，以适应不同的工作负载和应用程序。

2. CFS调度器

CFS调度器是Linux内核2.6.23版本之后引入的新调度器。该调度器的设计初衷是为了实现完全公平的进程计划（即，给每个进程提供公平的CPU使用时间）。CFS通过对每个运行中的进程分配权重，计算出每个进程所需的运行时间，并将CPU资源分配给它们。这使得每个进程都能够获得公平的CPU使用时间，并且按照权重比例分配CPU。

CFS调度器还有以下特点：

（1）CFS调度器相对于O（1）调度器更加公平和高效。它可以通过伸缩权重因子来提高实时进程的优先级，以确保它们始终获得足够的CPU使用时间。

（2）CFS调度器可以自适应地调整调度策略，以适应不同的工作负载和应用程序。

（3）CFS调度器可以防止进程饥饿。它通过使用红黑树来维护进程列表，并使用旋转技术来保持树的平衡。

二、优化Linux的性能与资源分配

了解了Linux的调度机制后，下一步就是对其进行优化。实际上，在Linux中，我们可以通过几种方法来优化性能和资源分配。以下是一些优化策略：

1. 实时优先级

实时优先级是Linux内核中的另一个调度机制，它为需要快速执行的任务提供专用的时间片。即使在代码块运行期间系统中断，也可以确保实时任务得到执行。实时优先级还可以通过nice值的方式为非实时进程提供优先级。

2. CPU绑定

CPU绑定是Linux内核中的另一个重要选项，它可确保进程分配到固定的CPU器件以进行计算。CPU绑定提供了更加稳定的性能，并减少了CPU堆栈上下文切换的开销。

3. I/O调度

I/O调度可以优化硬盘读写操作的性能。在Linux系统中，我们可以使用一些调度器，如 CFQ、NOOP和Deadline来调整硬盘的I/O行为，在不同的工作负载中实现更好的性能。例如CFQ在执行磁盘I/O操作时优先考虑磁盘间隔时间（即，等待时间）以确保磁盘的更大吞吐量，而Deadline则专注于快速处理磁盘请求，提供对交互式应用程序的支持。

4. 内存管理

Linux内存管理机制对计算机系统的空间性能至关重要。Linux使用一系列算法来管理可用内存以及可用磁盘空间。为了优化内存的使用，可以使用缓存技术、支持内存回收和内存压缩的远程嗅探功能、记录内存与交换委托等方式来实现。这些方法通常涉及分析CPU和磁盘的不同工作负载，以确定出更佳的调度和内存大小。

5. CPU频率调整

如果你的系统中有大量CPU应用程序正在运行，那么你可能会发现CPU负载增加。在这种情况下，可以采用动态硬件节电策略，根据工作负载需求调整CPU精度和频率。这将有助于优化系统性能并合理利用磁盘空间。

调度机制是Linux操作系统中一个非常重要的组成部分，它能够合理安排各个进程的执行顺序和优先级，提高整个系统的性能和响应性能。本文从调度器的角度深入探究了Linux的调度机制，介绍了O（1）调度器和CFS调度器的特点以及优化方法。如果想要进一步提高Linux系统的性能和资源利用率，可以从实时优先级、CPU绑定、I/O调度、内存管理和CPU频率调整等方面进行优化。

相关问题拓展阅读：

Linux 磁盘IO

Linux 磁盘IO

磁盘结构与数据存储方式, 数据是如何存储的，又通过怎样的方式被访问？

机械硬盘主要由磁盘盘片、磁头、主轴与传动轴等组成；数据就存放在磁盘盘片中

现代硬盘寻道都是采用CHS( Cylinder Head Sector )的方式，硬盘读取数据时，读写磁头沿径向移动，移到要读取的扇区所在磁道的上方，这段时间称为

寻道时间(seek time)

。

因读写磁头的起始位置与目标位置之间的距离不同，寻道时间也不同

。磁头到达指定磁道后，然后通过盘片的旋转，使得要读取的扇区转到读写磁头的下方，这段时间称为

旋转延迟时间(rotational latencytime)

。然后再读写数据，读手租写数据也需要时间，这段时间称为

传输时间(transfer time)

。

固态硬盘主要由主控芯片、闪存颗粒与缓存组成；数据就存放在闪存芯片中

通过主控芯片进行寻址，因为毕好兆是电信号方式，没有任何物理结构，所以寻址速度非常快且与数据存储位置无关

如何查看系统IO状态

查看磁盘空间

调用 open , fwrite 时到底发生了什么?

在一个IO过程中，以下5个API/系统调用是必不可少的

Create 函数用来打开一个文件，如果该文件不存在，那么需要在磁盘上创建该文件

Open 函数用于打开一个指定的文件。如果在 Open 函数中指定 O_CREATE 标记，那么 Open 函数同样可以实现 Create 函数的功能

Clos e函数用于释放文件句柄

Write 和 Read 函数用于实现文件的读写过程

O_SYNC (先写缓存, 但是需要实际落袜粗盘之后才返回, 如果接下来有读请求, 可以从内存读 ), write-through

O_DSYNC (D=data, 类似O_SYNC, 但是只同步数据, 不同步元数据)

O_DIRECT (直接写盘, 不经过缓存)

O_ASYNC (异步IO, 使用信号机制实现, 不推荐, 直接用aio_)

O_NOATIME (读取的时候不更新文件 atime(access time))

sync() 全局缓存写回磁盘

fsync() 特定fd的sync()

fdatasync() 只刷数据, 不同步元数据

mount noatime(全局不记录atime), re方式(只读), sync(同步方式)

一个IO的传奇一生这里有一篇非常好的资料，讲述了整个IO过程；

下面简单记录下自己的理解的一次常见的Linux IO过程，想了解更详细及相关源码，非常推荐阅读上面的原文

Linux IO体系结构

Superblock

超级描述了整个文件系统的信息。为了保证可靠性，可以在每个块组中对superblock进行备份。为了避免superblock冗余过多，可以采用稀疏存储的方式，即在若干个块组中对superblock进行保存，而不需要在所有的块组中都进行备份

GDT 组描述符表

组描述符表对整个组内的数据布局进行了描述。例如，数据块位图的起始地址是多少？inode位图的起始地址是多少？inode表的起始地址是多少？块组中还有多少空闲块资源等。组描述符表在superblock的后面

数据块位图

数据块位图描述了块组内数据块的使用情况。如果该数据块已经被某个文件使用，那么位图中的对应位会被置1，否则该位为0

Inode位图

Inode位图描述了块组内inode资源使用情况。如果一个inode资源已经使用，那么对应位会被置1

Inode表

（即inode资源）和数据块。这两块占据了块组内的绝大部分空间，特别是数据块资源

一个文件是由inode进行描述的。一个文件占用的数据块block是通过inode管理起来的

。在inode结构中保存了直接块指针、一级间接块指针、二级间接块指针和三级间接块指针。对于一个小文件，直接可以采用直接块指针实现对文件块的访问；对于一个大文件，需要采用间接块指针实现对文件块的访问

最简单的调度器。它本质上就是一个链表实现的

fifo

队列，并对请求进行简单的

合并

处理。

调度器本身并没有提供任何可以配置的参数

读写请求被分成了两个队列，一个用访问地址作为索引，一个用进入时间作为索引，并且采用两种方式将这些request管理起来；

在请求处理的过程中，deadline算法会优先处理那些访问地址临近的请求，这样可以更大程度的减少磁盘抖动的可能性。

只有在有些request即将被饿死的时候，或者没有办法进行磁盘顺序化操作的时候，deadline才会放弃地址优先策略，转而处理那些即将被饿死的request

deadline算法可调整参数

read_expire

: 读请求的超时时间设置(ms)。当一个读请求入队deadline的时候，其过期时间将被设置为当前时间＋read_expire，并放倒fifo_list中进行排序

write_expire

:写请求的超时时间设置(ms)

fifo_batch

:在顺序（sort_list）请求进行处理的时候，deadline将以batch为单位进行处理。每一个batch处理的请求个数为这个参数所限制的个数。在一个batch处理的过程中，不会产生是否超时的检查，也就不会产生额外的磁盘寻道时间。这个参数可以用来平衡顺序处理和饥饿时间的矛盾，当饥饿时间需要尽可能的符合预期的时候，我们可以调小这个值，以便尽可能多的检查是否有饥饿产生并及时处理。增大这个值当然也会增大吞吐量，但是会导致处理饥饿请求的延时变长

writes_starved

:这个值是在上述deadline出队处理之一步时做检查用的。用来判断当读队列不为空时，写队列的饥饿程度是否足够高，以时deadline放弃读请求的处理而处理写请求。当检查存在有写请求的时候，deadline并不会立即对写请求进行处理，而是给相关数据结构中的starved进行累计，如果这是之一次检查到有写请求进行处理，那么这个计数就为1。如果此时writes_starved值为2，则我们认为此时饥饿程度还不足够高，所以继续处理读请求。只有当starved >= writes_starved的时候，deadline才回去处理写请求。可以认为这个值是用来平衡deadline对读写请求处理优先级状态的，这个值越大，则写请求越被滞后处理，越小，写请求就越可以获得趋近于读请求的优先级

front_merges

:当一个新请求进入队列的时候，如果其请求的扇区距离当前扇区很近，那么它就是可以被合并处理的。而这个合并可能有两种情况，一个是向当前位置后合并，另一种是向前合并。在某些场景下，向前合并是不必要的，那么我们就可以通过这个参数关闭向前合并。默认deadline支持向前合并，设置为0关闭

在调度一个request时，首先需要选择一个一个合适的cfq_group。Cfq调度器会为每个cfq_group分配一个时间片，当这个时间片耗尽之后，会选择下一个cfq_group。每个cfq_group都会分配一个vdisktime，并且通过该值采用红黑树对cfq_group进行排序。在调度的过程中，每次都会选择一个vdisktime最小的cfq_group进行处理。

一个cfq_group管理了7棵service tree，每棵service tree管理了需要调度处理的对象cfq_queue。因此，一旦cfq_group被选定之后，需要选择一棵service tree进行处理。这7棵service tree被分成了三大类，分别为RT、BE和IDLE。这三大类service tree的调度是按照优先级展开的

通过优先级可以很容易的选定一类Service tree。当一类service tree被选定之后，采用service time的方式选定一个合适的cfq_queue。每个Service tree是一棵红黑树，这些红黑树是按照service time进行检索的，每个cfq_queue都会维护自己的service time。分析到这里，我们知道，cfq算法通过每个cfq_group的vdisktime值来选定一个cfq_group进行服务，在处理cfq_group的过程通过优先级选择一个最需要服务的service tree。通过该Service tree得到最需要服务的cfq_queue。该过程在 cfq_select_queue 函数中实现

一个cfq_queue被选定之后，后面的过程和deadline算法有点类似。在选择request的时候需要考虑每个request的延迟等待时间，选择那种等待时间最长的request进行处理。但是，考虑到磁盘抖动的问题，cfq在处理的时候也会进行顺序批量处理，即将那些在磁盘上连续的request批量处理掉

cfq调度算法的参数

back_seek_max

:磁头可以向后寻址的更大范围，默认值为16M

back_seek_penalty

:向后寻址的惩罚系数。这个值是跟向前寻址进行比较的

fifo_expire_async

:设置异步请求的超时时间。同步请求和异步请求是区分不同队列处理的，cfq在调度的时候一般情况都会优先处理同步请求，之后再处理异步请求，除非异步请求符合上述合并处理的条件限制范围内。当本进程的队列被调度时，cfq会优先检查是否有异步请求超时，就是超过fifo_expire_async参数的限制。如果有，则优先发送一个超时的请求，其余请求仍然按照优先级以及扇区编号大小来处理

fifo_expire_sync

:这个参数跟上面的类似，区别是用来设置同步请求的超时时间

slice_idle

:参数设置了一个等待时间。这让cfq在切换cfq_queue或service tree的时候等待一段时间，目的是提高机械硬盘的吞吐量。一般情况下，来自同一个cfq_queue或者service tree的IO请求的寻址局部性更好，所以这样可以减少磁盘的寻址次数。这个值在机械硬盘上默认为非零。当然在固态硬盘或者硬RAID设备上设置这个值为非零会降低存储的效率，因为固态硬盘没有磁头寻址这个概念，所以在这样的设备上应该设置为0，关闭此功能

group_idle

:这个参数也跟上一个参数类似，区别是当cfq要切换cfq_group的时候会等待一段时间。在cgroup的场景下，如果我们沿用slice_idle的方式，那么空转等待可能会在cgroup组内每个进程的cfq_queue切换时发生。这样会如果这个进程一直有请求要处理的话，那么直到这个cgroup的配额被耗尽，同组中的其它进程也可能无法被调度到。这样会导致同组中的其它进程饿死而产生IO性能瓶颈。在这种情况下，我们可以将slice_idle ＝ 0而group_idle ＝ 8。这样空转等待就是以cgroup为单位进行的，而不是以cfq_queue的进程为单位进行，以防止上述问题产生

low_latency

:这个是用来开启或关闭cfq的低延时（low latency）模式的开关。当这个开关打开时，cfq将会根据target_latency的参数设置来对每一个进程的分片时间（slice time）进行重新计算。这将有利于对吞吐量的公平（默认是对时间片分配的公平）。关闭这个参数（设置为0）将忽略target_latency的值。这将使系统中的进程完全按照时间片方式进行IO资源分配。这个开关默认是打开的

target_latency

:当low_latency的值为开启状态时，cfq将根据这个值重新计算每个进程分配的IO时间片长度

quantum

:这个参数用来设置每次从cfq_queue中处理多少个IO请求。在一个队列处理事件周期中，超过这个数字的IO请求将不会被处理。这个参数只对同步的请求有效

slice_sync

:当一个cfq_queue队列被调度处理时，它可以被分配的处理总时间是通过这个值来作为一个计算参数指定的。公式为： time_slice = slice_sync + (slice_sync/5 * (4 – prio)) 这个参数对同步请求有效

slice_async

:这个值跟上一个类似，区别是对异步请求有效

slice_async_rq

:这个参数用来限制在一个slice的时间范围内，一个队列最多可以处理的异步请求个数。请求被处理的更大个数还跟相关进程被设置的io优先级有关

通常在Linux上使用的IO接口是同步方式的，进程调用 write / read 之后会阻塞陷入到内核态，直到本次IO过程完成之后，才能继续执行，下面介绍的异步IO则没有这种限制，但是当前Linux异步IO尚未成熟

目前Linux aio还处于较不成熟的阶段，只能在 O_DIRECT 方式下才能使用(glibc_aio)，也就是无法使用默认的Page Cache机制

正常情况下，使用aio族接口的简要方式如下：

io_uring 是 2023 年 5 月发布的 Linux 5.1 加入的一个重大特性 —— Linux 下的全新的异步 I/O 支持，希望能彻底解决长期以来 Linux AIO 的各种不足

io_uring 实现异步 I/O 的方式其实是一个生产者-消费者模型:

逻辑卷管理

RAID0

RAID1

RAID5（纠错）

条带化

Linux系统性能调整：IO过程

Linux的IO调度

一个IO的传奇一生

理解inode

Linux 文件系统是怎么工作的？

Linux中Buffer cache性能问题一探究竟

Asynchronous I/O and event notification on linux

AIO 的新归宿：io_uring

linux 调度机制的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于linux 调度机制,深入探究Linux的调度机制，优化性能与资源分配,Linux 磁盘IO的信息别忘了在本站进行查找喔。

数据运维技术 » 深入探究Linux的调度机制，优化性能与资源分配 (linux 调度机制)

分享到：

Linux 磁盘IO

相关推荐