数据中心如何创建一只高效运维的团队

By admin | 2018-03-23 10:24:49      来源:      点击:675次

高效运维.jpg


伴随着数据中心建设的发展,2018年的云计算已经进入了高速发展的时期,云计算2.0高密度虚拟化架构化依赖于基础设施的支撑,并对基础设施的可靠性、持续性、大功率、时效性、模块化、自动化等提出了更高的挑战性。


数据中心的运维对象包含了机房基础设施、IT设备、系统和数据、运维管理工具、运维人员等。机房的运维需要运维人员7*24小时不间断的技术支持,可以说组建一只综合能力过硬的运维团队是做好数据中心运维管理工作的根本。

 

人员技术

数据中心的设备精密、系统结构复杂,对运维人员的技术提出了新的高要求,运维人员需要掌握专业所需技能,管理者还需要对人员的日常规范化运维操作、应急响应、故障排查进行技术培训和演练,过程中不断总结经验,完善运维指标、技术标准、应急流程,提高团队综合应急响应能力。

 

管理体系

根据ISO9000质量管理体系标准,建立设施运行、系统巡查、数据采集、指标测试标准化等标准化记录表单、完善设备运行管理、使运维质量管理制度化、体系化,提高运维品质,定期对运行管理制度进行经验总结,修正归档、统一发布的流程标准管理方法。

根据ISO2000 IT服务管理体系建立数据中心ITSM(IT Service Management)IT服务管理流程,对各设备、系统操作流程、应急响应流程进行设计、建设,提高IT运维服务质量,降低设施事件发生的频率和影响,对运维成员流程文件输入、输出的理论培训、实操培训,使流程不“固化”,流程更清晰、责任分工更明确,考核量化,文档规范化等。

 

管理制度

依据运维体系和指标对运维人员的工作行为和取到的工作成绩进行评估,并运用评估结果为运维人员后续的工作和工作成绩进行正面的引导。重点对人员的指标完成度、创新性进行观察、挖掘引导潜在的运维潜力。在运维工作方面主要体现在运维保障上,确保服务的可用性、安全性和服务体系流程的标准化实施。通过周度、月度报表内维护量、故障量等数据进行工作量、工作效率进行评估。


预警

数据中心监控管理系统是现代信息化数据中心运行监控指挥控制中心平台,通过数据采集、数据处理、数据存储、数据展示、数据预警的方式进行对现场环境设备、网络、温湿度、电量、开关、设备运行状态、压力、能源信息进行集中化实施展示分析。根据容量计算算法对机柜配电容量、冷却容量、装机量进行预警、评估、扩容优化。通过平台数据接口二次开发将预警数据进行实施传输到运维人员工作通讯群等平台,实现了运行数据信息共享化、预警信息实时化。让沟通简单化、避免“信息孤岛”等低效率现象,降低沟通成本、提高沟通效率的成果。


测试

数据中心系统测试是运维工作中至关重要的环节。系统测试验证是测试数据中心系统设计、安装、功能、调试是否与设计意图相符合的一个重要过程,是设施获得良好功能和可靠性运行过程中的重要组成部分,一个好的测试验证不应仅满足“测试”相关的设备功能指标,更重要的是“验证”系统是否可以满足运行阶段的要求。

运维人员也应利用测试验证的过程熟悉在管理设备的状态和运行指标,验证设备操作标准流程的可操作性,提高实际过程中操作和应对突发事件的运维经验。


容量管理

随着数据中心各式各样的非标用户的进入,通过专业知识及运维管理经验对客户提出的非标改造需求、对方案进行容量分析计算、布局规划、改造实施、功能测试、验收交付的过程,针对容量管理计算使用流体动力学CFD技术进行热仿真分析、对机柜进行合理布局、气流组织改善、机柜装机量分析验证。


对机房客户改造项目通过使用BIM技术进行布局,BIM是在项目全生命周期内,使用富含信息的三维模型作业中心数据库,在项目相关干系人之间共同进行创建、检查和沟通协调项目信息的一个过程。


BIM过程管理是一次对于传统的项目工作流线性模式的大转型。BIM的项目生命全周期鼓励项目团队全体成员在全生命周期内进行合作,BIM还提供了信息丢失时候、无缝沟通的平台,使项目团队能够在早期进行重大决策,提高生产率、提高项目质量和进行持续性建设大道重要方向。


运维管理

通过不停的学习有效的管理思路,运维团队建立即时通讯沟通平台,在工作中实施,“走动式管理“、“PDCA(即计划(plan)、执行(do)、检查(check)、调整(Adjust)),定期带着问题对现场进行巡视,发现、纠正和了解问题,并完善细节问题,定期与员工进行交流,鼓励大家对工作提出好的建议,在即时通讯平台进行及时沟通,最大程度做到专人负责责任制,跟进问题的整改检查和后续的持续完善的循环管理方法。


  • 数据中心,高效运维