Etcd 单个节点宕机后无法自动恢复

本文主要介绍 Etcd 单个节点宕机后无法自动恢复的解决方案。该方案操作期间集群正常提供服务，不影响用户业务。

适用范围

Etcd 版本为 etcd 3.4.16 - 2.0.1 及以上版本。

问题现象

3 节点或 5 节点的 Etcd 集群，其中一个节点所在物理机发生宕机，节点迁移后，该节点上的 Etcd 程序未能启动，导致单节点监控异常（此时 Etcd 集群服务正常）。

解决方案

移除异常的 etcd 节点，再重新添加节点，即可将节点到恢复活跃状态。

步骤一：停止进程

说明
AppCenter 中健康检查机制会定时触发，如果检测到不健康，会调用相应的 cmd 脚本，APP 内部可以在 cmd 脚本里面启动这个服务。为了避免 Appcenter 一直不停地启动这个服务，需要执行以下步骤停止异常节点上的进程，否则可能导致无法正常恢复 Etcd 节点。

说明

AppCenter 中健康检查机制会定时触发，如果检测到不健康，会调用相应的 cmd 脚本，APP 内部可以在 cmd 脚本里面启动这个服务。为了避免 Appcenter 一直不停地启动这个服务，需要执行以下步骤停止异常节点上的进程，否则可能导致无法正常恢复 Etcd 节点。

登录异常的 etcd 节点。例如 192.168.0.101 异常。
执行以下命令，复制 etcd.service 文件并命名为 etcd1.service。
```
mv /etc/systemd/system/etcd.service /etc/systemd/system/etcd1.service
```

执行以下命令，停止进程。

systemctl daemon-reload
systemctl stop etcd

步骤二：重新添加节点

登录任一正常的 etcd 节点。例如 192.168.0.102。

执行以下命令，查看集群节点列表，获取异常节点的 member id。

/opt/etcd/current/etcdctl member list --endpoints=http://192.168.0.102:2379

如下回显信息中，异常节点 192.168.0.101 的 member ID 为 ac2f188e97f50eb7。

1ce6d6d01109192, started, etcd03, http://192.168.0.102:2380, http://192.168.0.102:2379
9b534175b46ea789, started, etcd01, http://192.168.0.100:2380, http://192.168.0.100:2379
ac2f188e97f50eb7, started, etcd02, http://192.168.0.101:2380, http://192.168.0.101:2379

执行以下命令，移除异常节点。
```
/opt/etcd/current/etcdctl member remove ac2f188e97f50eb7 --endpoints=http://192.168.0.102:2379
```
ac2f188e97f50eb7 为上一步获取的异常节点的 member ID。

执行以下命令，重新加入节点。

/opt/etcd/current/etcdctl member add etcd02 --peer-urls="http://192.168.0.101:2380" --endpoints=http://192.168.0.102:2379

etcd02 为异常节点的 node ID。

步骤三：修改配置文件

登录异常的 etcd 节点。

执行以下命令，删除异常节点的数据。

注意
节点删除后，集群中的成员信息会更新，新节点加入集群是作为一个全新的节点加入，如果 data-dir 有数据，etcd 启动时会读取己经存在的数据，启动时仍然用旧的 member ID，也会造成集群无法加入，所以一定要清空节点的 data-dir。

注意

节点删除后，集群中的成员信息会更新，新节点加入集群是作为一个全新的节点加入，如果 data-dir 有数据，etcd 启动时会读取己经存在的数据，启动时仍然用旧的 member ID，也会造成集群无法加入，所以一定要清空节点的 data-dir。

rm -rf /var/lib/etcd/default.etcd

执行以下命令，复制 etcd.env 并命名为 etcd1.env。
```
cp /opt/app/conf/etcd.env /opt/app/conf/etcd1.env
```

执行以下命令，修改 etcd1.env 配置文件。

vi /opt/app/conf/etcd1.env

修改 ETCD_INITIAL_CLUSTER_STATE 的值为 existing。

ETCD_INITIAL_CLUSTER_STATE=existing

注意

注意
如果配置为 `new` 则会自动生成一个新的 member ID，和前面添加节点时生成的 ID 不一致，从而导致节点 ID 不匹配（可以通过日志查看错误信息）。

如果配置为 new 则会自动生成一个新的 member ID，和前面添加节点时生成的 ID 不一致，从而导致节点 ID 不匹配（可以通过日志查看错误信息）。

执行以下命令，修改 etcd1.service 文件。
```
vi /etc/systemd/system/etcd1.service
```
修改 EnvironmentFile 的值为 etcd1.env。
```
EnvironmentFile=/opt/app/conf/etcd1.env
```
执行以下命令，重启 etcd 节点。
```
systemctl daemon-reload
systemctl start etcd1.service
```
等待一会，这时候会同步数据，稍等再查看节点状态。

步骤四：查看状态

登录任一 etcd 节点。

执行以下命令，查看节点健康状态。

/opt/etcd/current/etcdctl endpoint health --endpoints=http://192.168.0.101:2379

正常显示如下：

http://172.22.2.43:2379 is healthy: successfully committed proposal: took = 4.480088ms

执行以下命令，查看集群节点列表。

/opt/etcd/current/etcdctl member list  --endpoints=http://192.168.0.102:2379

回显信息如下：

1ce6d6d01109192, started, etcd03, http://192.168.0.102:2380, http://192.168.0.102:2379
41c2a7b938a5e387, started, etcd02, http://192.168.0.101:2380, http://192.168.0.101:2379
9b534175b46ea789, started, etcd01, http://192.168.0.100:2380, http://192.168.0.100:2379

执行以下命令，查看集群的健康状态。

ETCDCTL_API=3 /opt/etcd/current/etcdctl endpoint health --endpoints=http://192.168.0.102:2379,http://192.168.0.100:2379,http://192.168.0.101:2379

都是健康，表示集群已恢复。

步骤五：环境恢复

登录之前异常的 etcd 节点。

执行以下命令，删除 etcd1.service 和 etcd1.env。

mv /etc/systemd/system/etcd1.service /etc/systemd/system/etcd.service
rm -rf /opt/app/conf/etcd1.env

执行以下命令，将 etcd.service 中 EnvironmentFile 的引用恢复为原来的状态。
```
vi /etc/systemd/system/etcd.service
```
修改 EnvironmentFile 的值为 etcd.env。
```
EnvironmentFile=/opt/app/conf/etcd.env
```

执行以下命令，重启 etcd 节点。

systemctl daemon-reload
systemctl stop etcd1
systemctl start etcd

步骤六：结果验证

进入 Etcd 集群的详情页面，若集群和节点的状态均为活跃中，表示恢复成功。