机房是应用系统计算、存储、传输数据的“神经中枢”,一旦发生异常,信息系统将面临瘫痪状态。即使“严加看护”,也难以100%保证万无一失。
面对这道难题,深圳供电局以自己的创新实践给出了答案——建成同城应用级双活容灾系统(以下简称“双活容灾”)。简言之,双活容灾就是将信息系统部署在同一城市两个同步运行的机房,即使一方因自然灾害、断电等发生故障,另一方也能自动补位,犹如“双保险”,保障业务系统正常运行。
近年来,该局应用国内外先进技术,在全网率先完成所有一体化系统的双活容灾建设,有效避免了因软硬件故障导致的系统中断,累计节约成本970余万元,实现“敏感数据零泄露、系统零事故、网络安全零事件”。
利用自有机房搭建应用级双活容灾
2013年以前,深圳供电局虽然拥有同城容灾中心,但仅具备数据级容灾功能,只能保障原有数据不会丢失或被破坏,业务系统仍有中断风险。对此,该局信息中心专门成立技术团队,通过分析国内外案例、走访IT企业,明确了利用自有机房搭建应用级双活容灾的思路。
试水新领域得“摸着石头过河”。据团队骨干陈瑞说,2014年5月到8月短短4个月内,他们邀请国内外知名厂商将设备搬到该局新技术实验室,模拟20多种故障,对60余项指标开展全方位测试,并派专人到省外气候实验基地进行人工检测,详细比对不同产品的性能,最终制定出最贴合实际的建设方案。
2016年12月,技术团队成功将双活容灾覆盖于所有一体化系统。去年,他们又为该局网掌营业厅、移动应用平台等上了“双保险”。信息化服务和管理正凭借新技术的翅膀,飞得更远、更稳。
主备系统实现无缝衔接
一年多来,深圳供电局核心系统历经21次软硬件异常,但每次都安然度过,正在使用系统的员工甚至察觉不到一丝波动,这既得益于“双保险”的护佑,也源自该局科学的运维策略和常态化的应急演练。
他们对系统设备分级管理,使隐患排查更有针对性。同时优化故障自动告警功能,“以前故障没有分类,一个系统故障可能触发多个设备告警,警报一发,运维人员就得四处忙活,”陈瑞说,“后来我们运用大数据分析,准确定位‘病源’,告警比例由86%降至6.46%,排查更高效。”
那么,当机房故障发生,双活容灾的表现又如何呢?翻开演练记录表,人资、资产、GIS等11个核心系统的中断时间是零秒,意味着双活容灾主备系统在同一时间无缝衔接。
“这个时间是精确的!”陈瑞信心十足。三年来,技术团队为不同设备“量身定制”应急处理和演练方案,并模拟故障情形,坚持“每季度一演练”,范围覆盖所有一体化系统,有效检验了技术架构、应急预案、事件上报联络机制。他们还针对演习中发现的问题,制定20项提升举措,保证双活容灾高质量运行。
历练新技术人才
双活容灾带来的不仅是显性的经济效益、时间效益,还有无形的收获。
它涉及数据库、存储、负载均衡等专业知识,需要综合型人才支撑。该局信息中心专门为新员工制定“369”培养计划,即上岗后3个月内熟悉业务,6个月内独挑大梁,9个月内考取相关技术认证,并通过轮岗学习,历练了一批综合能力强、技术过硬的运维人员,更好地适应了新技术带来的新要求。
凭借丰厚“收益”,该局双活容灾建设获南方电网公司2017年度技术改进贡献三等奖。“双活容灾是网公司信息规划的重点,也是进一步落实国家网络安全工作部署的重要举措,将在全网范围内推广。”南方电网公司信息部规划建设处副处长衡星辰表示,“深圳供电局完成全部一体化系统的双活容灾建设,为各单位提供了宝贵的工作经验。”
下一步,深圳供电局将探索双活容灾自动化巡检技术,降低人工运维成本,并利用“双保险”为更多核心业务系统保驾护航,为创建世界一流企业提供坚实的信息化保障。
更多精彩信息请关注中国农村电气化网!
标签:深圳供电局,机房,双保险,业务,零中断。一体化,系统应用