面向不间断服务的信息系统IT云检修技术的探索研究

2022-03-20 09:30:35 | 浏览次数:

摘要:本文在深入分析国网天津市电力公司(以下简称“国网天津公司”)重要信息系统运维检修现状的基础上,从系统架构、信息系统状态检修等两个方面,探索研究面向不间断服务的信息系统IT云检修技术的实现环境和检修管理制度,最后基于IT云检修技术对软硬件资源池提出总体规划和设计思路,其研究成果对电力行业实现信息系统的不间断服务和在线检修具有很好的借鉴意义。

关键词:不间断服务 软硬件资源池 在线检修 IT云检修

随着信息化建设不断推进,国网天津公司的生产经营活动越来越依赖于其关键的业务信息系统,对信息系统连续服务能力的要求不断提高。但是,国网天津公司以计划检修为核心的运维检修体系经常需要信息系统在检修期间停止对外服务,明显降低信息系统可用性。因此对于国网天津公司,如何结合软硬件资源池的深化建设,利用面向不间断服务的IT云检修技术实现检修期间应用服务和数据库服务的自动迁移和接管,保障关键业务的持续运营,是运维检修体系深化工作的重要管理和技术创新。

一、国网天津公司重要信息系统检修现状

国网天津公司信息系统运维检修体系以计划检修为核心,以年度运行方式和月度检修计划为基础,通过周检修计划和临时性检修开展信息系统的运维检修工作[1]。以ERP生产系统及高级应用系统和营销业务系统为例(如表1所示),2015年上半年共计检修11次和14次,其中共计3次和8次停止对外服务。

结合ERP系统和营销业务系统的系统架构进一步分析。ERP系统是SAP公司的成熟套装软件,只要在中央实例(CI)和数据库实例(DB)不停止的情况下,ERP系统就可以正常使用,只有涉及数据库核心及底层硬件变更才发生停机检修[2]。营销业务系统是国家电网公司自主研发逐步完善的大型业务系统,生产环境包含8台应用服务器和2台数据库服务器。应用程序采用Weblogic构成集群环境,通过F5设备进行负载均衡,实现毫秒级的故障切换。数据库根据Oracle RAC(Oracle Real Application Cluster)架构形成集群系统。因此,营销业务系统的架构模式、应用部署方式和冗余配置保证系统检修时允许部分设备停机,人工逐一部署,但是涉及业务变更、版本升级需要停运检修。

ERP系统和营销系统作为国家电网公司重点建设的信息系统,基于系统平台的软硬件支撑,检修期间实现不同程度的连续服务能力。然而国网天津公司其他32套信息系统,应用多采用F5负载均衡模式,数据库部署多采用双机RAC、单存储模式,检修期间存在较严重的停止服务现象。例如,非结构化平台在2015年上半年累计发生检修6次,检修期间非结构化平台停运,对所有用户均不可用,累计停运24小时以上。

因此,国网天津公司在信息系统运维检修方面,现有管理模式和技术手段无法支撑关键业务连续服务不间断。特别是,计划检修模式缺少检修的针对性和有效性,出现盲目检修和过度检修的问题,且大量的检修作业需要人工完成,对检修人员技术水平和实际经验依赖性较大。因此国网天津公司以软硬件资源池深化建设为契机,积极探索研究面向不间断服务的信息系统IT云检修技术。

二、面向不间断服务的信息系统IT云检修技术的探索研究

IT云检修是以信息系统的系统架构为基础,通过信息系统的运行状态评价和风险评估,选择合适的检修策略,规范化实施计划检修,信息系统检修期间通过使用自动迁移、接管应用服务和数据库服务等技术措施,确保信息系统实现不间断服务。下面分别从IT云检修技术的系统架构和状态检修两个方面进行深入分析:

(一)系统架构

信息系统要实现不间断服务的要求,系统架构是基础,也是IT云检修技术的实现关键。根据信息系统的连续服务能力,我们将信息系统分为系统在线不间断服务和离线不间断服务两种类型。

(1)在线不间断服务

在线不间断服务的信息系统基于系统平台相应的软硬件支撑,通过资源冗余、并行计算、负载均衡等方式实现信息系统的不间断服务,并提升系统性能[3]。其中,检修时允许部分服务器停机,信息系统处于“N-1”方式运行,仅仅是对外服务能力有所下降,我们称之为“在线不停运”;检修时全部服务器处于在线不停机状态,对外服务全部正常运行,我们称之为“在线不停机”。

在线不停运。以营销业务系统为例,在系统架构层面,营销系统通过F5负载均衡、WebLogic集群来实现应用服务的在线不停运。F5负载均衡通过在负载均衡集群中配置管理应用服务器,当个别服务器进行停机检修时,服务请求可以被路由到集群中的其他处理单元,信息系统处于“N-1”方式运行,对外服务能力有所下降。数据库根据Oracle RAC架构形成集群系统,单节点故障时集群服务不发生切换,另一节点可继续不受影响地提供服务。因此无论是应用服务还是数据库服务,单个节点均能够停机检修,而信息系统整体在线不停运、对外服务能力连续不间断。

在线不停机。ERP系统由开发系统(DEV)、测试系统(QAS)和生产系统(PRD)三部分组成[4]。开发系统的作用是进行应用功能模块的单元开发;测试系统的作用就是在DEV中通过单元测试功能,在集成环境完成回归测试;生产系统完全就是在QAS中通过严格测试后的应用功能正式对外服务场所。系统程序的变更通过传输机制(ECR)自动化完成,该模式可以最大程度的降低检修变更对生产系统的影响,对信息系统检修起到极大的安全与质量保障,实现服务器不停机条件下检修作业。

ERP系统的应用服务器采用负载均衡方式,数据库通过HACMP组成集群系统,单节点故障时集群服务不发生切换,另一节点可继续不受影响地提供服务。HACMP可以和AIX操作系统提供的设备一起保障信息系统不受硬件故障的影响,即自动将服务从一个故障节点移动至其他节点。

因此这种系统架构下,无论是应用服务还是数据库服务,单个节点业务变更或功能更新的检修作业实现在线不停机,硬件故障引起的临时性检修实现在线不停运,期间信息系统保持对外连续不间断的服务能力。

(2) 离线不间断服务

离线不间断服务的信息系统基于资源冗余。为避免信息系统中的单点故障,任一个服务器发生故障或者停机时,它的服务或者资源都可以通过自动或人工方式迁移到其它服务器上,但是迁移阶段信息系统短时间中断对外服务,由于用户对服务的间断微感知,属于用户可以接受范围内,因此称之为“离线不间断服务”。离线不间断服务的信息系统典型架构包括包含双机热备、双机互备这两种类型:

双机热备。即目前通常所说的active/standby 方式,active服务器处于工作状态;而standby 服务器处于监控准备状态,服务器数据包括数据库数据同时往两台或多台服务器写入(通常各服务器采用RAID磁盘阵列卡),保证数据的即时同步[5]。当active服务器出现故障的时候,通过软件诊测或手工方式将standby机器激活,保证应用在短时间内完全恢复正常使用。

双机互备。是两个相对独立的应用在两台机器同时运行,但彼此均设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性。

IT云检修技术的实现必备条件是信息系统具有不间断服务的能力,最优架构是在线不间断服务,其次是离线不间断服务,取决于信息系统具体的系统架构和部署环境。

(二)状态检修

传统的计划检修以信息系统使用时间或经验判断为依据,而状态检修方式是以信息系统当前的实际运行状况为依据,它通过状态采集和状态评价,识别故障的早期征兆,对故障部位、故障程度和发展趋势做出诊断,根据诊断结果进行检修策略和检修计划的制定,使信息系统的检修管理更加科学。

首先,通过采集信息系统的运行状态主数据(CPU使用率、内存占用率、磁盘I/O等)、运行性能类信息(数据库平均响应时长、首页请求响应时长、系统服务平均响应时长等)、运行资源类信息(数据库表空间消耗率、数据库连接占用比、WebLogic粘滞线程数、WebLogic连接池消耗率等)、运行进程类信息(数据库监听状态、数据库实例状态、WebLogic应用服务进程状态、业务进程运行状态等)和运行服务类信息(系统健康运行时长、业务服务状态等),全面客观掌握信息系统的运行状态量。

然后,依据模糊推理规则建立起信息系统状态量到状态评估值之间的非线性映射关系,由于模糊规则的产生和推理都是一种函数映射关系,因此可以用神经网络替代一般的基于规则适应度计算的模糊推理,各评估和输出参数的隶属函数选取高斯隶属函数。通过样本训练,基于模糊神经网络建立起信息系统运行状态评价标准及规范。

基于信息系统运行状态评价标准及规范,通过对信息系统的状态风险评估和检修策略分析,最终制定检修策略。

(1)状态风险评估

状态风险评估是根据状态评价结果和风险评估参数。基于概率分析的方法,利用故障分析树和事件分析树或逻辑树等手段,了解信息系统的故障模式、故障影响因素、影响重要度和敏感度、故障传递关系、风险扩散途径等,进而开展风险损失评估,得到评估结论。在建立科学客观的状态评价标准基础上,计划制定风险评估知识库、状态检修知识库建设方案,包括规则集、特征集、数据集、样本集等来源。知识库指导标准、策略、规则的扩充、修改、更新,增强风险评估、检修决策能力。

(2)检修策略分析

检修策略的分析和生成以状态评价为基础,结合风险评估结论,依赖状态检修知识库。状态检修数据管理的基础是一系列的数据库,包括设备运行记录、设计数据、检修历史记录、设备状态监测与诊断数据、设备性能分析数据等。

信息系统的状态检修体系是IT云检修技术的核心。状态检修分析故障发生现象,评估故障发展的趋势,依据设备的重要程度,并合理地安排检修时间和检修项目,使信息系统运行状态“可控、在控”,保障信息系统安全经济运行。通过信息系统状态检修体系建设、固化状态检修全流程、科学制定检修策略、合理安排检修项目和检修间隔,有效降低检修成本,提升信息系统的健康水平,最终形成状态检修的管理体系、执行体系、技术体系。

三、基于IT云检修技术的软硬件资源池规划设计

传统意义的“IT基础设施云化”就是将基础设施(服务器、存储系统等)由独立的硬件设备转化为资源池,资源池能够被多个上层业务共享,由统一的管理平台管理。将物理设备转化为资源池主要通过虚拟化技术,将单个物理设备所拥有的物理计算资源(如CPU、内存、磁盘和网络等)按需分割成大量的、细粒度的虚拟计算资源、并进而将这些细粒度资源按需整合分割成多个彼此独立的逻辑计算实体的过程。国家电网公司按照“三集五大”体系建设模式,提出信息系统基础设施新型应用方式——软硬件资源池,打破业务应用软硬件资源按专业或系统配置的模式,以共享、动态、高可用的方式提高设备资源,充分发挥设备资源利用率、设备效能、降低基础架构复杂度及建设维护成本,实现资源集约化和标准化管理,动态满足信息化建设对软硬件资源的需求。

国网天津公司在深化软硬件资源池建设基础上开展IT云检修技术的实践探索,在信息系统状态检修理论研究的基础上,构建适用于IT云检修技术的系统架构。国网天津公司的软硬件资源池基于虚拟化屏蔽不同物理设备的异构性,将基于标准化接口的物理资源虚拟化成逻辑上也完全标准化和一致化的逻辑计算资源和逻辑存储空间。因此应用服务或数据库服务出现异常时,可以通过自动迁移的方式,实现信息系统的在线继续服务。下面以国网天津公司为例给出基于IT云检修技术的软硬件资源池规划设计思路。

(一)资源池总体架构描述

国网天津公司的信息系统运行环境类型多且复杂,为保障各种关键信息系统持续运行,资源池总体架构中网络和存储采用集中化设计原则,统一支持各资源池的使用,而计算资源则根据不同的业务需求来划分为不同的资源池,如图1所示。三个逻辑资源池都接入到以太网中,通过接入交换机连接到核心交换机与外部网络进行通信。配备独立的全局负载均衡,实现国网天津公司多地服务器间的流量调配,从而提高访问质量。建立统一的SAN统一存储环境,同时支持三个逻辑资源池的业务需要。

(1)应用资源池。国网天津公司各业务系统按需选择逻辑实体,使用F5负载均衡、WebLogic集群、双机热备等构成信息系统的系统架构。应用资源池根据信息系统的系统架构特点,部署N台虚拟服务器进行冗余备份。当生产服务器出现故障的时候,通过根据服务器环境的不同预先部署安装MSCS、Life Keeper HA、ROSE HA等集群软件的“心跳诊断”检测出故障,自动切换备机,保障应用在30秒内完全恢复正常使用。

(2)数据库资源池。数据库池依赖于硬件的稳定运行和设备的冗余,软硬件高效稳定的协同工作才能够保障系统更加安全、稳定和高效地运行。国网天津公司依据数据库数据容量规模、不同数据库应用情况及业务应用重要性采用不同的入池策略:关键业务应用使用 Oracle RAC方式运行;其他业务应用通过数据库共享池的方式运行,如下表所示。

(3)测试资源池。测试资源池在安全性、稳定性、管理方式和设备要求上与其他资源池存在较大差别,组成单独的服务器群,通过X86的虚拟化技术独立满足各个业务系统的开发测试需求。

(4)存储资源池。存储资源池主要使用存储虚拟化技术,在A地和B地通过两节点的虚拟化网关实现物理存储间的数据实时同步,有效解决传统的物理存储架构存在的单点隐患,在单台存储发生故障后,另外一台存储可以瞬时接管业务,无需人为干预。

四、总结

本文探索面向不间断服务的信息系统IT云检修技术。首先梳理了国网天津公司重要信息系统的检修现状,明确在信息系统运维检修方面,现有管理模式和技术手段无法支撑关键业务连续服务不间断;其次从信息系统的系统架构和状态检修方法两个方面研究如何开展IT云检修工作;最后基于IT云检修技术给出国网天津公司软硬件资源池规划设计思路。该研究成果对各类信息系统的不间断服务模式下开展检修作业有很好的借鉴意义。后续需持续推进信息系统的IT云检修,落实和细化IT云检修的管理细则,使IT云检修技术带动国网天津公司运维检修体系的管理创新。

参考文献:

[1] 刘建民,张正义.从计划检修过渡到状态检修的方法探讨[D].电力安全技术,2008.

[2] 张扬,郭森,季平.基于SAP ERP信息系统的双活数据中心研究[D].电力信息与通信技术,2013.

[3] 雷万云.云计算——企业信息化建设策略与实践[M].清华大学出版社,2010.

[4] 任振清.SAP ERP应用案例详解[M].清华大学出版社,2013.

[5] Martin Fowler著,王怀民,周斌等译.企业应用架构模式[M].机械工业出版社,2011.

推荐访问: 信息系统 检修 不间断 面向 探索