Linux系统 2023-08-03

Linux 多线程队列：高效处理任务的利器 (linux 多线程队列)

随着互联网的快速发展，计算机处理大规模数据的能力也变得越来越重要。在处理大量数据的同时，确保计算机的处理效率和稳定性也同样重要。

Linux 多线程队列是一种高效处理任务的利器，它可以帮助计算机并行处理多个任务，从而提高计算机的处理效率。同时，Linux 多线程队列还可以帮助处理大规模数据时降低 CPU 的占用率，避免系统负载过高而导致的系统崩溃。

本文将介绍 Linux 多线程队列的相关知识，包括多线程队列的基本概念、多线程队列的使用场景、多线程队列的优缺点以及如何使用多线程队列来提高计算机的处理效率等。

一、多线程队列的基本概念

多线程队列是一种同时具备线程和队列的数据结构，它是一种并发编程的重要工具。在多线程队列中，任务被分配到多个线程中执行，每个线程会从队列中获取任务并执行，直到队列为空。

每个任务在队列中都具有一个优先级，可以通过调整任务优先级的方式来控制多线程队列的工作流程。当队列中有多个任务被加入时，多线程队列会根据任务的优先级来决定哪些任务先执行，哪些任务后执行。

二、多线程队列的使用场景

多线程队列可以广泛应用于各种需要高效处理任务的场景中，如网络通信、多媒体处理、数据库读写以及科学计算等领域。以下是一些可以使用多线程队列的场景示例：

1. 网络通信：网络通信是一个需要处理大量数据的场景，使用多线程队列可以帮助实现高吞吐量和低延迟的通信。

2. 多媒体处理：多媒体处理需要同时处理多个数据流，使用多线程队列可以帮助将多媒体处理任务分配到多个线程中执行，从而提高处理效率。

3. 数据库读写：数据库读写也是一个需要高效处理数据的场景，使用多线程队列可以避免因占用过多数据库连接而导致的问题。

4. 科学计算：科学计算需要处理大量数据并实现高并发处理，使用多线程队列可以帮助分配计算任务并提高计算效率。

三、多线程队列的优缺点

多线程队列作为一种并发编程工具，其优缺点并不可避免。以下是多线程队列的优缺点：

1. 优点：

（1）可以将任务分为多个线程同时执行，从而提高任务的处理效率。

（2）可以避免因占用过多 CPU 而导致的系统崩溃。

（3）可以提供任务优先级的调整，有利于控制任务处理的顺序。

2. 缺点：

（1）多线程队列的使用需要一定的并发编程技术，对开发人员要求较高。

（2）多线程队列的管理和优化需要一定的成本和精力。

四、如何使用多线程队列来提高计算机的处理效率

如何使用多线程队列来提高计算机处理效率呢？以下是一些使用多线程队列的实践技巧：

1. 任务分配优化：优化任务分配可以有效提高多线程队列的处理效率。可以通过控制队列长度、调整任务优先级和降低队列等待时间等方式来实现任务分配优化。

2. 内存管理优化：内存管理也是多线程队列的一个关键点，合理地分配内存可以提高队列的运行效率。可以通过合理设置内存分配策略以及减少内存分配次数等方式来实现内存管理的优化。

3. 线程管理优化：线程管理是多线程队列运行稳定性的保障。可以通过设置线程池大小、限制线程占用资源的数量和调整线程优先级等方式来实现线程管理优化。

：

在计算机处理大规模数据时，多线程队列是一种高效处理任务的利器，可以有效地提高计算机的处理效率。通过合理设置任务分配、内存管理和线程管理等因素，我们可以使多线程队列的运行更加稳定和高效。因此，掌握多线程队列技术是非常有必要的。

相关问题拓展阅读：

在Linux 上，编写一个每秒接收 100万UDP数据包的程序究竟有多难
纯软件开发人员怎样做嵌入式linux应用开发

在Linux 上，编写一个每秒接收 100万UDP数据包的程序究竟有多难

首先，我们假设：

测神世量每秒的数据包(pps)比测量每秒字节数(Bps)更有意思。您可以通过更好的管道输送以及发送更长数据包来获取更高的Bps。而相比之下，提高pps要困难得多。

因为我们对pps感兴趣，我们的实验将使用较短的 UDP 消息。准确来说是 32 字节的 UDP 负载，这相当于以太网层的 74 字节。

在实验中，我们将使用两个物理服务器：“接收器”和“发送器”。

它们都有两个六核2 GHz的 Xeon处理器。每个服务器都启用了 24 个处理器的超线程(HT)，有 Solarflare 的 10G 多队列网卡，有 11 个接收队列配置。稍后将详细介绍。

测试程序的源代码分别是：udpsender、udpreceiver。

预备知识

我们使用4321作为UDP数据包的端口，在开始之前，我们必须确保传输不会被iptables干扰：

Shell

receiver$ iptables -I INPUT 1 -p udp –dportj ACCEPT

receiver$ iptables -t raw -I PREROUTING 1 -p udp –dportj NOTRACK

为了后面测试方便，我们显式地定义IP地址：

Shell

receiver$ for i in `seq 1 20`; do

ip addr add 192.168.254.$i/24 dev eth2;

done

sender$ ip addr add 192.168.254.30/24 dev eth3

1. 简单的方法

开始我们做一些最简单的试验。通过简单地发送和接收，有多少包将会被传送？

模拟发送者的伪代码：

Python

fd = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)

fd.bind((“0.0.0.0”, 65400)) # select source port to reduce nondetermini

fd.connect((“192.168.254.1”, 4321))

while True:

fd.sendmmsg( * 1024)

因为我们使用了常见的系统调用的send，所以效率不会很高。上下文切换到内核代价很高所以更好避免它。幸运地是，最近Linux加入了一个方便的系统调用叫sendmmsg。它允许我们在一次调用时，发送很多的数据包。那我们就一次发1024个数据包。

模拟接受者的伪代码裤冲：

Python

fd = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)

fd.bind((“0.0.0.0”, 4321))

while True:

packets = * 1024

fd.recvmmsg(packets, MSG_WAITFORONE)

同样地，recvmmsg 也是相对于常见的 recv 更有效的一版系统调用。

让我们试试吧：

Shell

sender$ ./udpsender 192.168.254.1:4321

receiver$ ./udpreceiver1 0.0.0.0:4321

0.352M pps 10.730MiB / 90.010Mb

0.284M pps 8.655MiB / 72.603Mb

0.262M pps 7.991MiB / 67.033Mb

0.199M pps 6.081MiB / 51.013Mb

0.195M pps 5.956MiB / 49.966Mb

0.199M pps 6.060MiB / 50.836Mb

0.200M pps 6.097MiB / 51.147Mb

0.197M pps 6.021MiB / 50.509Mb

测试发现，运用最简单的方式可游纯肢以实现 197k – 350k pps。看起来还不错嘛，但不幸的是，很不稳定啊，这是因为内核在核之间交换我们的程序，那我们把进程附在 CPU 上将会有所帮助

Shell

sender$ taskset -c 1 ./udpsender 192.168.254.1:4321

receiver$ taskset -c 1 ./udpreceiver1 0.0.0.0:4321

0.362M pps 11.058MiB / 92.760Mb

0.374M pps 11.411MiB / 95.723Mb

0.369M pps 11.252MiB / 94.389Mb

0.370M pps 11.289MiB / 94.696Mb

0.365M pps 11.152MiB / 93.552Mb

0.360M pps 10.971MiB / 92.033Mb

现在内核调度器将进程运行在特定的CPU上，这提高了处理器缓存，使数据更加一致，这就是我们想要的啊！

2. 发送更多的数据包

虽然 370k pps 对于简单的程序来说已经很不错了，但是离我们 1Mpps 的目标还有些距离。为了接收更多，首先我们必须发送更多的包。那我们用独立的两个线程发送，如何呢：

Shell

sender$ taskset -c 1,2 ./udpsender

2.168.254.1:.168.254.1:4321

receiver$ taskset -c 1 ./udpreceiver1 0.0.0.0:4321

0.349M pps 10.651MiB / 89.343Mb

0.354M pps 10.815MiB / 90.724Mb

0.354M pps 10.806MiB / 90.646Mb

0.354M pps 10.811MiB / 90.690Mb

接收一端的数据没有增加，ethtool –S 命令将显示数据包实际上都去哪儿了：

Shell

receiver$ watch ‘sudo ethtool -S eth2 |grep rx’

rx_nodesc_drop_cnt:.3k/s

rx-0.rx_packets: 8.0/s

rx-1.rx_packets: 0.0/s

rx-2.rx_packets: 0.0/s

rx-3.rx_packets: 0.5/s

rx-4.rx_packets: 355.2k/s

rx-5.rx_packets: 0.0/s

rx-6.rx_packets: 0.0/s

rx-7.rx_packets: 0.5/s

rx-8.rx_packets: 0.0/s

rx-9.rx_packets: 0.0/s

rx-10.rx_packets: 0.0/s

通过这些统计，NIC 显示 4 号 RX 队列已经成功地传输大约 350Kpps。rx_nodesc_drop_cnt 是 Solarflare 特有的计数器，表明NIC发送到内核未能实现发送 450kpps。

有时候，这些数据包没有被发送的原因不是很清晰，然而在我们这种情境下却很清楚：4号RX队列发送数据包到4号CPU，然而4号CPU已经忙不过来了，因为它最忙也只能读350kpps。在htop中显示为：

多队列 NIC 速成课程

从历史上看，网卡拥有单个RX队列，用于硬件和内核之间传递数据包。这样的设计有一个明显的限制，就是不可能比单个CPU处理更多的数据包。

为了利用多核系统，NIC开始支持多个RX队列。这种设计很简单：每个RX队列被附到分开的CPU上，因此，把包送到所有的RX队列网卡可以利用所有的CPU。但是又产生了另一个问题：对于一个数据包，NIC怎么决定把它发送到哪一个RX队列？

用 Round-robin 的方式来平衡是不能接受的，因为这有可能导致单个连接中数据包的重排序。另一种方法是使用数据包的hash值来决定RX号码。Hash值通常由一个元组（源IP，目标IP，源port，目标port）计算而来。这确保了从一个流产生的包将最终在完全相同的RX队列，并且不可能在一个流中重排包。

在我们的例子中，hash值可能是这样的：

Shell

RX_queue_number = hash(‘192.168.254.30’, ‘192.168.254.1’, 65400, 4321) % number_of_queues

多队列 hash 算法

Hash算法通过ethtool配置，设置如下：

Shell

receiver$ ethtool -n eth2 rx-flow-hash udp4

UDP over IPV4 flows use these fields for computing Hash flow key:

IP SA

IP DA

对于IPv4 UDP数据包，NIC将hash(源 IP,目标 IP)地址。即

Shell

RX_queue_number = hash(‘192.168.254.30’, ‘192.168.254.1’) % number_of_queues

这是相当有限的，因为它忽略了端口号。很多NIC允许自定义hash。再一次，使用ethtool我们可以选择元组(源 IP、目标 IP、源port、目标port)生成hash值。

Shell

receiver$ ethtool -N eth2 rx-flow-hash udp4 sdfn

Cannot change RX network flow hashing options: Operation not supported

不幸地是，我们的NIC不支持自定义，我们只能选用(源 IP、目的 IP) 生成hash。

NUMA性能报告

到目前为止，我们所有的数据包都流向一个RX队列，并且一个CPU。我们可以借这个机会为基准来衡量不同CPU的性能。在我们设置为接收方的主机上有两个单独的处理器，每一个都是一个不同的NUMA节点。

在我们设置中，可以将单线程接收者依附到四个CPU中的一个，四个选项如下：

另一个CPU上运行接收器，但将相同的NUMA节点作为RX队列。性能如上面我们看到的，大约是360 kpps。

将运行接收器的同一 CPU 作为RX队列，我们可以得到大约430 kpps。但这样也会有很高的不稳定性，如果NIC被数据包所淹没，性能将下降到零。

当接收器运行在HT对应的处理RX队列的CPU之上，性能是通常的一半，大约在200kpps左右。

接收器在一个不同的NUMA节点而不是RX队列的CPU上，性能大约是330 kpps。但是数字会不太一致。

虽然运行在一个不同的NUMA节点上有10%的代价，听起来可能不算太坏，但随着规模的变大，问题只会变得更糟。在一些测试中，每个核只能发出250 kpps，在所有跨NUMA测试中，这种不稳定是很糟糕。跨NUMA节点的性能损失，在更高的吞吐量上更明显。在一次测试时，发现在一个坏掉的NUMA节点上运行接收器，性能下降有4倍。

3.多接收IP

因为我们NIC上hash算法的限制，通过RX队列分配数据包的唯一方法是利用多个IP地址。下面是如何将数据包发到不同的目的IP：

sender$ taskset -c 1,2 ./udpsender 192.168.254.1:.168.254.2:4321

ethtool 证实了数据包流向了不同的 RX 队列：

Shell

receiver$ watch ‘sudo ethtool -S eth2 |grep rx’

rx-0.rx_packets: 8.0/s

rx-1.rx_packets: 0.0/s

rx-2.rx_packets: 0.0/s

rx-3.rx_packets: 355.2k/s

rx-4.rx_packets: 0.5/s

rx-5.rx_packets: 297.0k/s

rx-6.rx_packets: 0.0/s

rx-7.rx_packets: 0.5/s

rx-8.rx_packets: 0.0/s

rx-9.rx_packets: 0.0/s

rx-10.rx_packets: 0.0/s

接收部分：

Shell

receiver$ taskset -c 1 ./udpreceiver1 0.0.0.0:4321

0.609M pps 18.599MiB / 156.019Mb

0.657M pps 20.039MiB / 168.102Mb

0.649M pps 19.803MiB / 166.120Mb

万岁！有两个核忙于处理RX队列，第三运行应用程序时，可以达到大约650 kpps !

我们可以通过发送数据到三或四个RX队列来增加这个数值，但是很快这个应用就会有另一个瓶颈。这一次rx_nodesc_drop_cnt没有增加，但是netstat接收到了如下错误：

Shell

receiver$ watch ‘netstat -s –udp’

Udp:

.0k/s packets received

.0/s packets to unknown port received.

.9k/s packet receive errors

.0/s packets sent

RcvbufErrors: 123.8k/s

SndbufErrors: 0

InCsumErrors: 0

这意味着虽然NIC能够将数据包发送到内核，但是内核不能将数据包发给应用程序。在我们的case中，只能提供440 kpps，其余的390 kpps + 123 kpps的下降是由于应用程序接收它们不够快。

4.多线程接收

我们需要扩展接收者应用程序。最简单的方式是利用多线程接收，但是不管用：

Shell

sender$ taskset -c 1,2 ./udpsender 192.168.254.1:.168.254.2:4321

receiver$ taskset -c 1,2 ./udpreceiver1 0.0.0.0:

0.495M pps 15.108MiB / 126.733Mb

0.480M pps 14.636MiB / 122.775Mb

0.461M pps 14.071MiB / 118.038Mb

0.486M pps 14.820MiB / 124.322Mb

接收性能较于单个线程下降了，这是由UDP接收缓冲区那边的锁竞争导致的。由于两个线程使用相同的套接字描述符，它们花费过多的时间在UDP接收缓冲区的锁竞争。这篇论文详细描述了这一问题。

看来使用多线程从一个描述符接收，并不是更优方案。

5. SO_REUSEPORT

幸运地是，最近有一个解决方案添加到 Linux 了 —— SO_REUSEPORT 标志位（flag）。当这个标志位设置在一个套接字描述符上时，Linux将允许许多进程绑定到相同的端口，事实上，任何数量的进程将允许绑定上去，负载也会均衡分布。

有了SO_REUSEPORT，每一个进程都有一个独立的socket描述符。因此每一个都会拥有一个专用的UDP接收缓冲区。这样就避免了以前遇到的竞争问题：

Shell

receiver$ taskset -c 1,2,3,4 ./udpreceiver1 0.0.0.0:

1.114M pps 34.007MiB / 285.271Mb

1.147M pps 34.990MiB / 293.518Mb

1.126M pps 34.374MiB / 288.354Mb

现在更加喜欢了，吞吐量很不错嘛！

更多的调查显示还有进一步改进的空间。即使我们开始4个接收线程，负载也会不均匀地分布：

两个进程接收了所有的工作，而另外两个根本没有数据包。这是因为hash冲突，但是这次是在SO_REUSEPORT层。

结束语

我做了一些进一步的测试，完全一致的RX队列，接收线程在单个NUMA节点可以达到1.4Mpps。在不同的NUMA节点上运行接收者会导致这个数字做多下降到1Mpps。

总之，如果你想要一个完美的性能，你需要做下面这些：

确保流量均匀分布在许多RX队列和SO_REUSEPORT进程上。在实践中，只要有大量的连接(或流动)，负载通常是分布式的。

需要有足够的CPU容量去从内核上获取数据包。

To make the things harder, both RX queues and receiver processes should be on a single NUMA node.

为了使事情更加稳定，RX队列和接收进程都应该在单个NUMA节点上。

纯软件开发人员怎样做嵌入式linux应用开发

二：Linux基础 Linux操作系统的概念、安装方法，详细了解Linux下的目录结构、基本命令、编辑器VI ,编译器GCC，调试器GDB和 Make 项目管理工具, Shell Makefile脚本编写等知识，嵌入式开发环庆历境的搭建。

三：Linux系统编程重点学习标准I/O库，颂仔Linux多任务编程中的多进程和多线程，以及进程间通信(pipe、FIFO、消息队列、共享内存、signal、信号量等)，同步与互斥对共享资源访问控制等重要知识，主要提升对Linux应用开发的理解和代码调试的能力。

四：Linux网络编程计算机网络在嵌入式Linux系统应用开发过程中使用非常广泛，通过Linux网络发展、TCP/IP协议、socket编程、TCP网络编程、UDP网络编程、Web编程开发等方面入手，全面了解誉樱搜Linux网络应用程序开发。重点学习网络编程相关API，熟练掌握TCP协议服务器的编程方法和并发服务器的实现，了解HTTP协议及其实现方法，熟悉UDP广播、多播的原理及编程方法，掌握混合C/S架构网络通信系统的设计，熟悉HTML,Javascript等Web编程技术及实现方法。

五：数据结构与算法数据结构及算法在嵌入式底层驱动、通信协议、及各种引擎开发中会得到大量应用，对其掌握的好坏直接影响程序的效率、简洁及健壮性。此阶段的学习要重点理解数据结构与算法的基础内容，包括顺序表、链表、队列、栈、树、图、哈希表、各种查找排序算法等应用及其C语言实现过程。

关于linux 多线程队列的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

数据运维技术 » Linux 多线程队列：高效处理任务的利器 (linux 多线程队列)

分享到：

在Linux 上，编写一个每秒接收 100万UDP数据包的程序究竟有多难

纯软件开发人员怎样做嵌入式linux应用开发

相关推荐