服务器维护清单中的7个步骤
2019/12/27 11:50:57
为了有效地维护服务器,服务器管理员须执行主动的硬件和软件检查。而服务器的维护清单须包括除尘、日志查看、软件补丁程序测试等。
即使具有服务器的性能和冗余功能,增加的工作负载整合和可靠性期望也会对服务器硬件造成损害。
服务器维护清单应涵盖物理元素以及系统的软件层配置。还须考虑到以下事实:彻底维护需要的时间、人工时间和测试。使用清单有助于服务器管理员定义目标,并保持IT团队的正常运转。
1.制定维护程序
服务器管理员经常忽略计划维护窗口。不要等到出现故障时才开始维护;要留出时间进行例行的服务器预防性维护。
维护频率取决于服务器设备的使用年限、数据中心和需要维护的服务器数量。例如,与部署在高效微粒空气过滤、冷却良好的数据中心中的新服务器相比,位于设备柜中的老旧服务器需要更频繁的检查。
组织可以根据供应商或第三方提供商的例行程序制定例行维护计划;如果供应商的服务合同每四个月或六个月要求进行系统检查,需要遵循这个时间表。
2.为准备停机做好准备
解决服务器维护清单上的项目之前,首先需要制定计划。这包括检查系统日志中是否有需要更加直接关注的错误或事件。如果系统日志表明特定内存模块有错误,则应订购替换的双列直插式内存(DIMM)并将其安装。同样,如果有可用的固件、操作系统或代理补丁/更新,请在计划的维护窗口之前先进行测试和审查。
制定明确的计划以使系统脱机并使其恢复服务。在进行虚拟化之前,服务器及其驻留的应用程序将需要停机才能容纳维护窗口,但这迫使服务器管理员在晚上或周末实施维护。
虚拟服务器支持迁移工作负载而不是停机,因此服务器管理员可以将应用程序迁移到其他服务器,并且只要在底层主机系统上进行服务器维护,它们就将保持可用状态。在维修之前,需要首先了解虚拟机的去向,将虚拟机迁移到选定的系统,并在关闭服务器进行维护之前验证每个工作负载是否正常运行。
此时,服务器管理员可以关闭服务器并将其从机架中移除。
3.检查气流路径
在服务器宕机之后,需要目视检查其外部和内部气流路径。清除所有可能阻碍冷却空气的积尘和碎屑。
从外部空气入口和出口开始,然后进入系统机箱,查看CPU散热器和风扇部件、内存,以及所有冷却风扇叶片和风道。从机架上卸下服务器之后,需要确保服务器清洁。采用干净、干燥的压缩空气清除防静电工作区上的灰尘或碎屑。
除尘并不是一个新的过程,但仍然是必要的。灰尘是一种绝热材料,因此去除灰尘尤为重要,因为替代的冷却方案和美国供暖、制冷和空调工程师学会 (ASHRAE)的建议已提高了数据中心的工作温度。灰尘和其他气流障碍会导致服务器消耗更多的能量,甚至可能导致组件故障。
4.检查本地硬盘
服务器依靠内部硬盘进行引导、工作负载启动和存储以及用户数据。磁盘介质问题损害了工作负载的性能和稳定性,并导致硬盘过早故障。使用“检查硬盘”实用程序之类的工具来验证硬盘的完整性,并尝试恢复硬盘上的坏的扇区。
采用磁性媒质的硬盘并不完美。其常见的问题包括损坏扇区和碎片化。在发生存储错误后,RAID在保持数据完整性方面有很大的进步,但体积较小的1U机架服务器无法提供足够的物理空间来部署硬盘阵列。
只要NT文件系统和文件分配表硬盘文件碎片不会消失,只要文件系统一般使用第一个可用集群的硬盘空间即可。碎片会减慢服务器硬盘的速度并导致故障。Optimize-Volume实用程序Windows Server 2016对存储层进行碎片整理和处理。
5.验证日志数据和事件
服务器在事件日志中记录了大量的事件信息。没有仔细检查系统、恶意软件和其他事件日志,没有服务器维护清单是不完整的。
下一页
返回列表
返回首页
©2025 智能硬件世界----智能硬件产业门户网站 电脑版
Powered by iwms