性能优化:Linux 系统内核优化的建议

关闭swap

如果服务器上有运行数据库服务或消息中间件服务,请关闭交换分区

echo "vm.swappiness = 0" >> /etc/sysctl.conf
sysctl -p

OOM Killer

一般我们的linux服务都是混部服务的,每个程序申请的物理内存都是共享的;例如物理内存只有1g,启动2个程序各申请1g是可以的,linux通过这种过度分配的方式来达到内存的充分利用,当程序实际使用内存超出物理内存时,会被系统按照优先级,杀掉一部分程序以确保其它程序的正常运行;为了避免核心服务被杀,可以将进程文件设置为最高优先级。

# 数值越小越不容易被杀
echo -17 > /proc/$pid/oom_score_adj

TCP

因为我们提供的数据库和一些消息中间件服务都是内网工作的,所以可以针对内网对TCP参数进行一些优化。

  • net.ipv4.tcp_syn_retries

默认值为6,参考值为2。主机作为客户端,对外发起TCP连接时,即三次握手的第一步,内核发送SYN报文的重试次数,超过这个次数后放弃连接。内网环境通信良好,因此可以适度降低此值

  • net.ipv4.tcp_synack_retries

默认值为5,参考值为2。主机作为服务端,接受TCP连接时,在三次握手的第二步,向客户端发送SYN+ACK报文的重试次数,超过这个次数后放弃连接。内网环境中可适度降低此值

  • net.ipv4.tcp_timestamps

是否开启时间戳,开启后可以更精确地计算RTT,一些其他特性也依赖时间戳字段。

  • net.ipv4.tcp_tw_reuse

默认值为0,建议值为1。是否允许将处于TIME_WAIT状态的socket用于新的TCP连接。这对于降低TIME_WAIT数量很有效。该参数只有在开启tcp_timestamps的情况下才会生效。

  • net.ipv4.tcp_tw_recycle

是否开启TIME_WAIT套接字的快速回收,这是比tcp_tw_reuse更激进的一种方式,它同样依赖tcp_timestamps选项。强烈建议不要开启tcp_tw_recycle,原因有两点,一是TIME_WAIT是十分必要的状态,避免关闭中的连接与新建连接之间的数据混淆,二是tcp_tw_recycle选项在NAT环境下会导致一些新建连接被拒绝,因为NAT下每个主机存在时差,这体现在套接字中的时间戳字段,服务端会发现某个IP上的本应递增的时间戳出现降低的情况,时间戳相对降低的报文将被丢弃

  • net.core.somaxconn

默认值为128,参考值为2048。定义了系统中每一个端口上最大的监听队列的长度。当服务端监听了某个端口时,操作系统内部完成对客户端连接请求的三次握手。这些已建立的连接存储在一个队列中,等待accept调用取走。本选项就是定义这个队列的长度。调大该值,可降低高并发场景下服务端的reject次数。

  • net.ipv4.tcp_max_syn_backlog

客户端的请求在服务端由两个队列进行管理,一种是与客户端完成连接建立后,等待accept的放到一个队列,这个队列的长度由somaxconn参数控制;另一种是正在建立但未完成的连接单独存放一个队列,这个队列的长度由tcp_max_syn_backlog控制;默认128,调到至8192.

  • net.ipv4.tcp_max_tw_buckets

默认值为4096,参考值为100000。定义系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数,则TIME_WAIT套接字将立刻被清除并打印警告信息。如果系统被TIME_WAIT过多问题困扰,则可以调节tcp_max_tw_buckets、tcp_tw_reuse、tcp_timestamps三个选项来缓解。TIME_WAIT状态产生在TCP会话关闭时主动关闭的一端,如果想从根本上解决问题,则让客户端主动关闭连接,而非服务端。

page cache

page cache即系统脏页,是系统的io缓存,当数据写入磁盘前会先写入page cache中,然后异步刷入磁盘;写缓存可以提升IO的访问速度,但同时也会增加丢失数据的风险。

从page cache刷到磁盘有以下三种时机:

  • 可用物理内存低于特定阈值时,为了给系统腾出空闲内存;
  • 脏页驻留时间超过特定阈值时,为了避免脏页无限期驻留内存;
  • 被用户的sync()或fsync()触发。

由系统执行的刷盘有两种写入策略:

  • 异步执行刷盘,不阻塞用户I/O;
  • 同步执行刷盘,用户I/O被阻塞,直到脏页低于某个阈值。

在一般情况下,系统先执行第一种策略,当脏页数据量过大,异步执行来不及完成刷盘时,切换到同步方式。

我们可以通过内核参数调整脏数据的刷盘阈值:

  • vm.dirty_background_ratio,默认值为10。该参数定义了一个百分比。当内存中的脏数据超过这个百分比后,系统使用异步方式刷盘。
  • vm.dirty_ratio,默认值为30。同样定义了一个百分比,当内存中的脏数据超过这个百分比后,系统使用同步方式刷盘,写请求被阻塞,直到脏数据低于dirty_ratio。如果还高于dirty_background_ratio,则切换到异步方式刷盘。因此 dirty_ratio 应高于dirty_background_ratio。

除了通过百分比控制,还可以指定过期时间:vm.dirty_expire_centisecs,默认值为3000(30秒),单位为百分之1秒,超过这个时间后,脏数据被异步刷盘。

可以通过下面的命令查看系统当前的脏页数量:

cat /proc/vmstat |egrep "dirty|writeback"
nr_dirty 951
nr_writeback 0
nr_writeback_temp 0
#输出显示有951个脏页等待写到磁盘。默认情况下每页大小为4KB。另外,也可以在/proc/meminfo文件中看到这些信息。

如果数据安全性要求没有那么高,想要多“cache”一些数据,让读取更容易命中cache,则可以增加脏数据占比和过期时间:

vm.dirty_background_ratio = 30
vm.dirty_ratio = 60
vm.dirty_expire_centisecs = 6000

同理,如果不希望因为刷盘导致io被阻,可适当减少异步刷盘的数值,这样可以让io更加平滑:

vm.dirty_background_ratio = 5
vm.dirty_ratio = 60

关闭swap

如果服务器上有运行数据库服务或消息中间件服务,请关闭交换分区

echo "vm.swappiness = 0" >> /etc/sysctl.conf
sysctl -p

OOM Killer

一般我们的linux服务都是混部服务的,每个程序申请的物理内存都是共享的;例如物理内存只有1g,启动2个程序各申请1g是可以的,linux通过这种过度分配的方式来达到内存的充分利用,当程序实际使用内存超出物理内存时,会被系统按照优先级,杀掉一部分程序以确保其它程序的正常运行;为了避免核心服务被杀,可以将进程文件设置为最高优先级。

# 数值越小越不容易被杀
echo -17 > /proc/$pid/oom_score_adj

TCP

因为我们提供的数据库和一些消息中间件服务都是内网工作的,所以可以针对内网对TCP参数进行一些优化。

  • net.ipv4.tcp_syn_retries

默认值为6,参考值为2。主机作为客户端,对外发起TCP连接时,即三次握手的第一步,内核发送SYN报文的重试次数,超过这个次数后放弃连接。内网环境通信良好,因此可以适度降低此值

  • net.ipv4.tcp_synack_retries

默认值为5,参考值为2。主机作为服务端,接受TCP连接时,在三次握手的第二步,向客户端发送SYN+ACK报文的重试次数,超过这个次数后放弃连接。内网环境中可适度降低此值

  • net.ipv4.tcp_timestamps

是否开启时间戳,开启后可以更精确地计算RTT,一些其他特性也依赖时间戳字段。

  • net.ipv4.tcp_tw_reuse

默认值为0,建议值为1。是否允许将处于TIME_WAIT状态的socket用于新的TCP连接。这对于降低TIME_WAIT数量很有效。该参数只有在开启tcp_timestamps的情况下才会生效。

  • net.ipv4.tcp_tw_recycle

是否开启TIME_WAIT套接字的快速回收,这是比tcp_tw_reuse更激进的一种方式,它同样依赖tcp_timestamps选项。强烈建议不要开启tcp_tw_recycle,原因有两点,一是TIME_WAIT是十分必要的状态,避免关闭中的连接与新建连接之间的数据混淆,二是tcp_tw_recycle选项在NAT环境下会导致一些新建连接被拒绝,因为NAT下每个主机存在时差,这体现在套接字中的时间戳字段,服务端会发现某个IP上的本应递增的时间戳出现降低的情况,时间戳相对降低的报文将被丢弃

  • net.core.somaxconn

默认值为128,参考值为2048。定义了系统中每一个端口上最大的监听队列的长度。当服务端监听了某个端口时,操作系统内部完成对客户端连接请求的三次握手。这些已建立的连接存储在一个队列中,等待accept调用取走。本选项就是定义这个队列的长度。调大该值,可降低高并发场景下服务端的reject次数。

  • net.ipv4.tcp_max_syn_backlog

客户端的请求在服务端由两个队列进行管理,一种是与客户端完成连接建立后,等待accept的放到一个队列,这个队列的长度由somaxconn参数控制;另一种是正在建立但未完成的连接单独存放一个队列,这个队列的长度由tcp_max_syn_backlog控制;默认128,调到至8192.

  • net.ipv4.tcp_max_tw_buckets

默认值为4096,参考值为100000。定义系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数,则TIME_WAIT套接字将立刻被清除并打印警告信息。如果系统被TIME_WAIT过多问题困扰,则可以调节tcp_max_tw_buckets、tcp_tw_reuse、tcp_timestamps三个选项来缓解。TIME_WAIT状态产生在TCP会话关闭时主动关闭的一端,如果想从根本上解决问题,则让客户端主动关闭连接,而非服务端。

page cache

page cache即系统脏页,是系统的io缓存,当数据写入磁盘前会先写入page cache中,然后异步刷入磁盘;写缓存可以提升IO的访问速度,但同时也会增加丢失数据的风险。

从page cache刷到磁盘有以下三种时机:

  • 可用物理内存低于特定阈值时,为了给系统腾出空闲内存;
  • 脏页驻留时间超过特定阈值时,为了避免脏页无限期驻留内存;
  • 被用户的sync()或fsync()触发。

由系统执行的刷盘有两种写入策略:

  • 异步执行刷盘,不阻塞用户I/O;
  • 同步执行刷盘,用户I/O被阻塞,直到脏页低于某个阈值。

在一般情况下,系统先执行第一种策略,当脏页数据量过大,异步执行来不及完成刷盘时,切换到同步方式。

我们可以通过内核参数调整脏数据的刷盘阈值:

  • vm.dirty_background_ratio,默认值为10。该参数定义了一个百分比。当内存中的脏数据超过这个百分比后,系统使用异步方式刷盘。
  • vm.dirty_ratio,默认值为30。同样定义了一个百分比,当内存中的脏数据超过这个百分比后,系统使用同步方式刷盘,写请求被阻塞,直到脏数据低于dirty_ratio。如果还高于dirty_background_ratio,则切换到异步方式刷盘。因此 dirty_ratio 应高于dirty_background_ratio。

除了通过百分比控制,还可以指定过期时间:vm.dirty_expire_centisecs,默认值为3000(30秒),单位为百分之1秒,超过这个时间后,脏数据被异步刷盘。

可以通过下面的命令查看系统当前的脏页数量:

cat /proc/vmstat |egrep "dirty|writeback"
nr_dirty 951
nr_writeback 0
nr_writeback_temp 0
#输出显示有951个脏页等待写到磁盘。默认情况下每页大小为4KB。另外,也可以在/proc/meminfo文件中看到这些信息。

如果数据安全性要求没有那么高,想要多“cache”一些数据,让读取更容易命中cache,则可以增加脏数据占比和过期时间:

vm.dirty_background_ratio = 30
vm.dirty_ratio = 60
vm.dirty_expire_centisecs = 6000

同理,如果不希望因为刷盘导致io被阻,可适当减少异步刷盘的数值,这样可以让io更加平滑:

vm.dirty_background_ratio = 5
vm.dirty_ratio = 60

以上就是性能优化:Linux 系统内核优化的建议的详细内容,更多关于Linux 系统优化的资料请关注其它相关文章!


数据运维技术 » 性能优化:Linux 系统内核优化的建议