业务连续性和灾难恢复
◇业务连续性管理(简称BCM):属于管理和流程范畴,发现对企业有潜在影响的威胁,设计应对和恢复的管理框架和策略。 总体目标是提高企业的风险防范能力,确保业务在任何时间、任何必要条件下都能保持持续运行。
◇灾难恢复(简称DR):又称灾难恢复,是指借助科学的技术手段和技能,建设两套功能相同或相似的IT系统,以应对大规模故障或灾难(如园区
当数据中心业务系统因层面、楼宇层面停水、火灾、洪水/渗水、空调故障、网络中断等原因导致无法提供服务时,如何将业务系统切换到另一个数据中心机房级持续提供服务是实现业务连续性的重要手段。
表1 业务连续性和灾难恢复的比较
本地高可用和灾备高可用
高可用性,通常描述了专门设计用于处理故障和灾难的系统,从而减少停机时间并保持其服务的高可用性。 包括以下两类(如图2所示)。
本地高可用:在数据中心中,应对小规模或局部故障(如单存储故障、单服务器故障、单应用系统故障等),实现方式有双机、集群、负载平衡等
容灾高可用:也叫容灾(简称DR),至少有两个数据中心来应对大范围的故障或灾难(如园区级、大楼级、机房级停水、火灾、水灾/漏电、空调故障、网络中断等),建设两套功能相同或相似的IT系统,并实行主动备份、互为备份、准主动、双主动、容灾可分为同城容灾、异地容灾、两地三中心容灾、混合云容灾; 又可分为分级容灾和降级容灾; 还可以分为业务级容灾、应用级容灾、数据级容灾。
图1 本地高可用与容灾高可用关系说明
表2 本地高可用与灾备高可用对比分析
从GC规划和项目实施谈容灾与高可用建设
项目背景
某高端制造公司(以下简称“GC”)拥有世界一流的鞋厂,占地面积约300万平方米,年生产能力100万双。 GC成立伊始,就衍生并严格推行精益生产模式,取得了享誉全球的产品品质。
随着信息化与业务的深度融合,IT系统在生产经营中的作用越来越重要和复杂,导致IT基础设施和应用系统故障频率下降,影响生产、销售和管理。 业务用户对应用系统的可用性要求越来越高,增强系统可用性已成为重中之重。 同时,应用系统的可用性指标需要讨论和确认。
主要存在三个痛点:
1、本地高可用的疗效并不理想。 每个应用系统上线时基本都部署本地高可用,但上线后达不到预期效果,切换时经常出现异常; 另外,本地高可用没有应急预案或者应急预案不完善,演习有意见,但没有具体实施。
2.数据集中,单点大。 重要业务系统集中部署在A楼数据中心,已实现数据集中处理。 数据的集中意味着风险的加剧。 如何提高抵御风险(如机房级、大楼级故障或灾难)的能力已成为迫切需要考虑和解决的问题。
3.所有的故障都可能影响业务。 局部故障(如应用系统或模块崩溃、硬盘故障、内存故障等)、大规模故障(如PaaS平台故障、机房漏电、停电、火灾、UPS故障、空调故障、市政影响等)、设备层面、机房层面、大楼层面的故障或灾难,必须从各个层面寻找解决方案,并且需要快速解决。
项目举办理念
GCIT系统和技术已有近20年的历史。 应用系统采用双卡IT架构。 新技术和架构的运用远远领先于同行。 2017年容器规划和实施已经开始,大量采用私有云、容器、公有云技术。 ,以满足当时紧急的业务需求。 业务严重依赖IT,但灾备和高可用没有部署,本地高可用也需要加强。
鉴于GC的实际情况,项目决定分两步进行:
第一步
设计演进方案,制定路线图,分阶段进行项目,明确各阶段的内容;
第二步
按照路线图实施,22年实施第一阶段。
项目目标
结合行业及同行业高可用项目的最佳实践、先进经验和技术发展趋势,以长远眼光、统筹规划、科学论证,制定新的高可用建设总体蓝图规划,多年来面向未来,符合GC的业务发展。 只有能够指导未来分阶段实施高可用建设,才能满足GC业务快速、稳定、安全、灵活发展的要求,确保高可用建设能够处于行业领先水平。行业,最终提高GCIT系统服务业务的持续运营能力。
根据规划的路线图,设计一个可实施的高可用解决方案,需要应对局部故障、大规模故障、设备级、机房级、建筑级故障或灾难,
项目成果通过试点系统的演练或实战进行检验。 锻炼方式可以是单一系统,也可以是多系统联合锻炼。
项目策划及实施内容
◇路线图设计。 项目组首先根据重要程度、紧迫程度、影响程度,将核心系统分为A(32)、B(23)、C(24)三个等级,从2022年到2022年分批、分阶段使用。 2026 年举办可用性构建。 在此基础上明确了高可用建设的思路,即系统高可用分为本地高可用和灾备高可用。 本地高可用,增强设置和锻炼,可用,敢用,功能强大。 容灾高可用,从无到有,分批分期滚动建设,逐步提速。 然后明确了高可用建设的范围(A级、B级、C级应用系统和网络系统)、RTO、RPO等,并提出了本地高可用和灾备高可用的简单技术方案。 最后制定了五年建设规划路线图。 根据路线图,评估年度具体工作量、投资测算(人力、设备)、设备采购简要清单,输出高可用建设用户需求书,包括2022年高可用建设目标明确2023年和2024年的项目范围和具体工作内容、可量化的评估指标、阶段/进度/工期安排/里程碑计划、工作成果等,为举办2022-2024年高可用建设项目奠定坚实的基础基础。 据悉,项目组从IT规模、人力和设备投入等方面对GC与同类低端制造企业的容灾建设进行了对比分析,以证明GC容灾高可用建设投入的合理性,并提出控制投资的措施。
◇增强本地高可用性。 分为应用系统本地高可用增强和网络系统本地高可用增强。 首先针对32个A级应用系统和网络系统设计本地高可用增强方案,在此基础上选取3个A级应用系统并设计3个网络场景,进行本地高可用增强集成实施,然后设计演练场景、任务流程规划,并进行演练,验证强化的疗效。
◇灾难恢复的高可用性。 首先针对32个A级应用系统设计了容灾高可用解决方案。 在此基础上,选择了3个A级应用系统作为试点,实施容灾和高可用集成。 之后设计演练场景,安排任务流程软件高可用性,举行演练。 ,验证容灾方案的可行性并满足容灾指标要求。
项目成果展示
GCIT系统高可用建设全景图如图2所示。
图2 GC高可用构建全景图
应用系统本地高可用增强的总体模型如图3所示。
图3 GC应用系统本地高可用增强模型
网络系统本地高可用增强整体模型如图4所示。
图4 GC网络系统本地高可用增强模型
容灾高可用建设总体架构如图5所示。
图5 GC容灾及高可用建设整体架构
新的容灾高可用建设规划蓝图如图6所示。
图6 GC容灾新蓝图及高可用建设规划
①选择三套应用系统进行合理论证,覆盖生产、销售、管理三大领域,搭建同城容灾环境;
② 开展21次高可用演练,成功实现应用系统在本地数据中心和不同数据中心之间的切换。 无数据丢失,各项任务均达到预期指标,证明了高可用方案的有效性;
③容灾系统承接真实业务,车间、门店进行真实业务验证,覆盖整个制造流程,运行一段时间后顺利切换回来;
④ 应用系统通过高可用演练发现了29个潜在问题,并解决了这29个问题,切实提高了系统的可用性;
⑤针对本地高可用性的增强,提出了44条优化建议,并已制定实施方案,将按照方案实施,切实提高系统的可用性;
⑥ 提高系统可用性,通过举办高可用演练来测试联络系统,检查倒换脚本是否正确执行。 同时,各领域运维团队的协作水平和应急响应水平也得到了极大的提升,使得当实际发生故障或车祸时,能够从容应对、快速解决;
⑦ 交接演练全过程通过H3C灾备管理平台进行管理,实现灾备演练和交接过程的电子化、自动化、可追溯、可审计,实现指挥和操作的可视化和监控软件高可用性,缩短 RTO。
项目历时10个月,所有项目工作内容均按量保质交付。 项目成果思路清晰、论证严谨、推论可行。 GC通过真实的切换测试坚定了信心,也为后续的高可用项目奠定了基础。
项目利润
GC以为客户制造优秀的产品为己任。 出于自身发展需要,通过举办高可用建设和切换演练,故障灾难接管的能力和效率得到了大幅提升,保障了GC信息系统的正常运行,提高了员工的灾难意识。 而对高可用工作的理解和认可,也提高了未来高可用建设的声誉。 最终使业务能够在灾难场景或故障场景下快速有序恢复,最大限度地减少灾难性突发风暴给企业带来的损失,提高信息系统抵御严重灾难或故障的能力,保证业务连续性。 变革提供了坚实的保证。
结论
云、大数据时代,数据成为重要的生产要素。 关键信息系统和数据的保护是数字经济发展和数字化转型的保障。 无论是用户、企业还是国家,都必须采取一系列措施。 加强数据安全保护。 应用系统和IT基础设施要全面高可用建设,早已成为业界共识,尤其是灾备高可用作为数据安全的最后一道防线。 高可用建设是一个逐步深化、环环相扣、不断完善的循环过程。 要不断建立制度建设,不断更新预案,不断举行切换演练。 只有这样,才能减少故障或灾难的发生。 当故障或灾难发生时,您可以冷静、快速、高效地应对。