数据中心智能运维系统的研究
时间:2023-08-16 04:21:49
郭东旭
(中国石油化工集团有限公司 北京市 100728)
在数据中心的运维管理中,需要结合实际情况建立监控体系,其中包含着综合布线系统、安全管理系统以及能源监控系统等,在各个系统运行过程中保持系统之间的明确分工,让各系统在运行中发挥应有的作用与价值。然而,很多系统在运行过程中并不能实现系统之间的联动,无法发挥联动效果,因此,对数据中心进行智能化运维体系的建立是极为关键的工作内容,而目前国内外对数据中心的统一管理研究力度不足。本文主要结合数据中心的运维管理要求,加大智能化运维管理体系的建立,确保数据中心发挥最大的价值,实现运维管理效率的提升,满足企业降本增效。
1 数据中心智能化运维管理的需求
(1)可用性要求。在机房运行过程中,配备的电力设施、空调设施等一旦发生了事故,能够及时提供电力,确保机房基础设施的稳定运行。
(2)安全性要求。在机房运行过程中,在发生安全突发事故时,比如,火灾、水灾或者非法入侵等现象,能够及时精准的进行安全警示,并且采取应急措施降低受到的损害。
(3)经济性要求。企业在管理过程中对经济性要求的关注度非常高,数据中心在运行与维护过程中需要根据环境温度等进行自动调整,实现对出风大小的自动感知与调节,并且对照明系统进行自动控制,降低能源损失。
(4)无人化要求。在机房运行过程中,通过机器设备能够自动获取机房内部的设备运行状况、环境管理状况,满足对机房运维过程中人员的规范化管理,结合获取的数据和信息进行发展趋势的判断分析,机房在运行中可能存在的风险,并且,给予警报,提出针对性的防治方案,减少人为失误给机房运行带来的损失,也降低工作人员的劳动强度。
2 现有数据中心系统管理现状
(1)系统分散,缺乏统一的管理机制。在数据中心的运行过程中,各个系统之间功能分散,不同的系统有着不同的应用范围,而且并未形成统一的管理机制,无法落实对系统的统一监管,各个系统只需要进行职责范围内的工作,而且一些系统在运行过程中只存在简单的通信和联通功能,与其他系统之间的关联性较低,也缺乏数据之间的互通,无法及时查看整个数据中心的运行状况。由于存在的系统数量较多,在进行系统的查看过程中工作人员需要结合运行要求对各个系统进行及时分析,配备较多的监控系统以及工作人员,造成了物力和人力的增加。
(2)缺乏自动化的运维手段。在数据中心的运行过程中,针对机房管理时,无论是环境监测还是变配电系统的监测,只能实现对数据和信息的推送以及历史数据的查看与分析,并未实现智能化的运维管理体系,也缺乏自动化的管理流程。由于在机房中涉及到的设备种类较多,而且包含着物理资源、逻辑资源以及数据资源,单靠某一工作人员进行数据中心的机房运维,将难以满足运维要求,而且需要工作人员不断实现对数据和信息的录入,缺乏自动化的管控手段,将会造成较大的工作负担,也在一定程度上增加了人力资源成本。
(3)对故障的分析与定位相对薄弱。在数据中心运维过程中出现故障时,对于故障的判断与排除手段不够先进,无法结合自动化技术实现对故障情况以及故障影响范围的判断,如果故障无法及时排除,将会造成较大的资源消耗。
(4)缺乏对知识库的维护与管理。在现阶段系统维护过程中,并不具备电子知识库的管理,而且不同的系统设定了相应的负责人,在出现突发事故时需要进行资料的查找,并未建立统一的数据库管理厂家资料以及设备管理信息表,在发生设备故障时不能及时实现对故障的判断与定位。由于数据中心运维过程中工作人员更换频繁,很多工作人员并不能快速了解数据中心的以往运维状况,对于历史故障的查询缓慢。因此,在数据中心的运维管理中,需要及时建立知识库,满足对历史故障的查询,做好相应的记录为后续故障,排除提供支持。
(5)缺乏综合性的管理办法。在数据中心的管理过程中,综合管理类的系统相对完善,但是并不能达到与其他系统之间的联动,缺乏人员与物品的出入管理,而且在当前的管理过程中,很多管理内容都实现了电子化,但是,在实际的管理过程中仍然存在着大量的纸质化管理,而这一情况将会造成大量的资源浪费,也缺乏对相关工作人员的考核。在运维系统管理过程中,只能进行一部分系统的分析或者发出警报,而且很多系统属于老旧系统,需要通过手动控制并未达到自动化的管理要求。
3 数据中心智能运维系统的应用
3.1 机房AI智能监测
(1)AI 智能导航。在数据中心的智能运维管理体系建立中,需要结合机器人等智能体实现自动巡检系统的建立,满足在机房环境中有较高的定位能力,实施对机房的全天候自主巡视,满足无人化和自动化的设备巡检以及故障排除,降低在巡检和运维工作中投入的精力和成本,让数据中心设备在运行维护管理时有较高的质量与效率。通过AI 智能导航的建立,能够满足运维过程中的自主移动和自主定位,强化设备的巡检效果。
(2)指示灯识别。在数据中心的智能运维管理体系的建立中,需要建设高清摄像头,通过高清摄像头和设备的自主识别算法对机房巡查过程中存在的指示灯进行识别,可以及时进行电源指示灯识别模型的训练,结合模型训练以及故障指示灯的显示,在识别过程中及时分析存在的报警信息,并且将报警信息传递给后台进行预警,满足对预警信息的推送及时实现故障排除。
(3)温度与湿度监测。在数据中心的运维过程中,巡检过程中不同的房间对于温度与湿度的要求有着一定差异,在运维管理过程中设置的温度和湿度监测功能能够不间断的进行,数据和信息的收集,明确坐标点的温度湿度状况,并且将采集到的数据和信息进行整理之后上传给后台服务器,满足在云存储器上的记录,并且要求在客户端平台进行数据和信息的实时展示。
(4)空气洁净程度的监测,在数据中心智能化运维体系建立时,需要根据机房内部的空气洁净程度进行监测,通过此功能能够满足对机房运行状况的分析,将采集到的数据和信息上传给服务器,保持云端存储,需要结合实际情况在客户端平台进行数据的展示。
(5)噪声监测功能,在数据中心的机房运维过程中,噪声监测功能能够在运维过程中实现对异常噪音状况的收集,并且满足预警噪声监测功能,可以对特定位置以及特定场景下的声音数据进行收集,判断声音分贝,通过在系统内设置规范值,在超过规范值时能够发出预警信息,并且对存在的异常状况进行判断,满足对噪声的识别与处理。
(6)红外测温。红外测温功能应用中,需要结合相应设备,满足对机房内运行状况的拍照,及时判断设备温度,在温度超过了设定值,能够给出高温警报信息,方便工作人员对存在的问题进行查找与处理。
(7)显示屏识别。在数据中心的运维管理过程中,结合搭建的高清摄像头满足与自身识别算法的融合,对空调、列头柜等设备进行信息识别,精准的读取温度和湿度信息、电流信息,可以将识别到的数据和信息在显示屏上进行显示,如果超出设定值可以给出警告信息,并且满足对信息的及时推送。
(8)开关柜情况识别。结合高清摄像头对柜门开关状态的识别,在数据中心的运维管理过程中,结合搭建的高清摄像头
提醒您:因为《数据中心智能运维系统的研究》一文较长还有下一页,点击下面数字可以进行阅读!
《数据中心智能运维系统的研究》在线阅读地址:数据中心智能运维系统的研究