服务器硬盘 · 卒 - Yoiyami-v3 维修记录

缘起

大概在一周前,我的 Uptime Bot 突然告诉我 Web 服务出现了问题。

我单纯地以为只是一般的重启就能解决的故障,但深入分析后发现,ESXi 的行为似乎有些奇怪。我试图在 ESXi 的控制台上对机器进行断电重启,但面板完全没有反应,卡在了“操作进行中”的状态。

(它甚至运行了十个小时)

实在没有别的好办法,我就开始尝试物理重启机器,没想到问题消失了。但机器没运行多久,就又出现了先前的问题。此时我注意到了一台虚拟机上的日志输出:

这时候我才意识到问题的严重性:硬盘坏了。

由于这个硬盘是购买这台主机时附带的硬盘,我也没怎么关注健康状态就给它装上了。说白了就是想到了会出问题,但没想到问题来得这么快(

补救措施

在我意识到硬盘损坏之后,马上选择了对主机断电。随后下单了一块新的硬盘,开始进行数据迁移。

我使用 DiskGenius 对原硬盘进行分区备份,虽然中途有出现各种问题,但好在数据最后是完整保留下来了。

原先我的计划是,将硬盘所有分区备份,然后原样转移到新硬盘里来保证系统的正常运行。但实际情况是,如果这么做的话,第一次启动可以正常运行,但第二次启动就会出现问题,完全无法进入系统,原因未知。

所以我只能再重新装一遍系统,然后再把 vmfs 分区恢复进去。

进程很顺利,但进入系统的时候,我发现 vmfs 分区没有被正确识别。经过资料查找,要让 vmfs 分区正常识别,需要在 ESXi 上执行以下命令:

esxcli storage vmfs snapshot list
esxcfg-volume -M [分区UUID]

大功告成!现在服务器又恢复正常了。

后记

经历了这次对于服务器来说属于是灾难级别的故障,我意识到了以下几件事:

  1. 数据备份真的非常非常重要,尤其是重要的数据
  2. 如果出现了系统完全没有响应之类的问题,记得检查一下硬盘
  3. 不要用来路不明的硬盘

后来我用工具查看了一下这块硬盘,发现这块盘是真的很野:

通电次数,读取写入都低的离谱,温度明显没有 52 度但是显示 52 度,大概率是固件被魔改的硬盘。为了你的数据安全考虑,千万不要用这类硬盘存数据,我已经踩过坑了 :(


服务器硬盘 · 卒 - Yoiyami-v3 维修记录
https://blog.akyuu.cn/post/24121201/
作者
RLt
发布于
2024年12月12日
许可协议