其他数据库 2023-05-15

Redis集群Down了，我们的故事到此开始（redis 集群down）

当Redis集群Down的时候，我们的故事就可以从此开始了。在系统运维岗位，这是一种司空见惯的事情，但这次Down了，确实让我们大吃一惊。

定位为Redis进程Down，理论上可以排除其他服务出故障。我们检查了Redis的日志，确认了它的未知故障。同时，我们也检查了Redis的性能参数，也排除了网络、内存及磁盘等其他可能性。

排除Redis本身原因之后，我们针对集群架构进行了修复，首先重启了Master节点，以保证Redis可正常工作。同时，我们也利用Autoflover机制，及时将拆解Master节点为Slave节点，以避免数据丢失。

随后，我们利用Resharding机制，将备用Slave节点调整为Master节点，保证服务流畅运行。我们也利用dbsize函数，及时进行数据的恢复，以确保线上应用服务的正常运行。

技术代码如下：

//restart redis

/usr/local/bin/redis-server /etc/redis/redis.conf

//flover Master

redis-trib.rb flover –from masterip –to slaveip

//reshard Slave

redis-trib.rb reshard –fromoldmaster slaveip –to-slots slotnumber –to newmaster newmasterip

//restore data

redis-cli –eval dbsize.lua

最终，我们在熟练应用了Redis的相关技术后，将Redis集群成功地恢复到正常运行的状态。这次经历让我们学到了很多，希望在今后的运维工作中能够更加注意系统的稳定性，以便于更好地维护系统及节点的安全。

分享到：