MySQL 2022-08-07

性能优化：Linux 系统内核优化的建议

关闭swap

如果服务器上有运行数据库服务或消息中间件服务，请关闭交换分区

echo "vm.swappiness = 0" >> /etc/sysctl.conf
sysctl -p

OOM Killer

一般我们的linux服务都是混部服务的，每个程序申请的物理内存都是共享的；例如物理内存只有1g，启动2个程序各申请1g是可以的，linux通过这种过度分配的方式来达到内存的充分利用，当程序实际使用内存超出物理内存时，会被系统按照优先级，杀掉一部分程序以确保其它程序的正常运行；为了避免核心服务被杀，可以将进程文件设置为最高优先级。

# 数值越小越不容易被杀
echo -17 > /proc/$pid/oom_score_adj

TCP

因为我们提供的数据库和一些消息中间件服务都是内网工作的，所以可以针对内网对TCP参数进行一些优化。

net.ipv4.tcp_syn_retries

默认值为6，参考值为2。主机作为客户端，对外发起TCP连接时，即三次握手的第一步，内核发送SYN报文的重试次数，超过这个次数后放弃连接。内网环境通信良好，因此可以适度降低此值

net.ipv4.tcp_synack_retries

默认值为5，参考值为2。主机作为服务端，接受TCP连接时，在三次握手的第二步，向客户端发送SYN+ACK报文的重试次数，超过这个次数后放弃连接。内网环境中可适度降低此值

net.ipv4.tcp_timestamps

是否开启时间戳，开启后可以更精确地计算RTT，一些其他特性也依赖时间戳字段。

net.ipv4.tcp_tw_reuse

默认值为0，建议值为1。是否允许将处于TIME_WAIT状态的socket用于新的TCP连接。这对于降低TIME_WAIT数量很有效。该参数只有在开启tcp_timestamps的情况下才会生效。

net.ipv4.tcp_tw_recycle

是否开启TIME_WAIT套接字的快速回收，这是比tcp_tw_reuse更激进的一种方式，它同样依赖tcp_timestamps选项。强烈建议不要开启tcp_tw_recycle，原因有两点，一是TIME_WAIT是十分必要的状态，避免关闭中的连接与新建连接之间的数据混淆，二是tcp_tw_recycle选项在NAT环境下会导致一些新建连接被拒绝，因为NAT下每个主机存在时差，这体现在套接字中的时间戳字段，服务端会发现某个IP上的本应递增的时间戳出现降低的情况，时间戳相对降低的报文将被丢弃

net.core.somaxconn

默认值为128，参考值为2048。定义了系统中每一个端口上最大的监听队列的长度。当服务端监听了某个端口时，操作系统内部完成对客户端连接请求的三次握手。这些已建立的连接存储在一个队列中，等待accept调用取走。本选项就是定义这个队列的长度。调大该值，可降低高并发场景下服务端的reject次数。

net.ipv4.tcp_max_syn_backlog

客户端的请求在服务端由两个队列进行管理，一种是与客户端完成连接建立后，等待accept的放到一个队列，这个队列的长度由somaxconn参数控制；另一种是正在建立但未完成的连接单独存放一个队列，这个队列的长度由tcp_max_syn_backlog控制；默认128，调到至8192.

net.ipv4.tcp_max_tw_buckets

默认值为4096，参考值为100000。定义系统同时保持TIME_WAIT套接字的最大数量，如果超过这个数，则TIME_WAIT套接字将立刻被清除并打印警告信息。如果系统被TIME_WAIT过多问题困扰，则可以调节tcp_max_tw_buckets、tcp_tw_reuse、tcp_timestamps三个选项来缓解。TIME_WAIT状态产生在TCP会话关闭时主动关闭的一端，如果想从根本上解决问题，则让客户端主动关闭连接，而非服务端。

page cache

page cache即系统脏页，是系统的io缓存，当数据写入磁盘前会先写入page cache中，然后异步刷入磁盘；写缓存可以提升IO的访问速度，但同时也会增加丢失数据的风险。

从page cache刷到磁盘有以下三种时机：

可用物理内存低于特定阈值时，为了给系统腾出空闲内存；
脏页驻留时间超过特定阈值时，为了避免脏页无限期驻留内存；
被用户的sync（）或fsync（）触发。

由系统执行的刷盘有两种写入策略：

异步执行刷盘，不阻塞用户I/O；
同步执行刷盘，用户I/O被阻塞，直到脏页低于某个阈值。

在一般情况下，系统先执行第一种策略，当脏页数据量过大，异步执行来不及完成刷盘时，切换到同步方式。

我们可以通过内核参数调整脏数据的刷盘阈值：

vm.dirty_background_ratio，默认值为10。该参数定义了一个百分比。当内存中的脏数据超过这个百分比后，系统使用异步方式刷盘。
vm.dirty_ratio，默认值为30。同样定义了一个百分比，当内存中的脏数据超过这个百分比后，系统使用同步方式刷盘，写请求被阻塞，直到脏数据低于dirty_ratio。如果还高于dirty_background_ratio，则切换到异步方式刷盘。因此 dirty_ratio 应高于dirty_background_ratio。

除了通过百分比控制，还可以指定过期时间：vm.dirty_expire_centisecs，默认值为3000（30秒），单位为百分之1秒，超过这个时间后，脏数据被异步刷盘。

可以通过下面的命令查看系统当前的脏页数量：

cat /proc/vmstat |egrep "dirty|writeback"
nr_dirty 951
nr_writeback 0
nr_writeback_temp 0
#输出显示有951个脏页等待写到磁盘。默认情况下每页大小为4KB。另外，也可以在/proc/meminfo文件中看到这些信息。

如果数据安全性要求没有那么高，想要多“cache”一些数据，让读取更容易命中cache，则可以增加脏数据占比和过期时间：

vm.dirty_background_ratio = 30
vm.dirty_ratio = 60
vm.dirty_expire_centisecs = 6000

同理，如果不希望因为刷盘导致io被阻，可适当减少异步刷盘的数值，这样可以让io更加平滑：

vm.dirty_background_ratio = 5
vm.dirty_ratio = 60