为解决电力系统灾备中心资源利用率低,灾备业务流程复杂等一系列问题,提出将云计算技术引入的具体思路。探讨了云计算在电力系统应用的可行性和必要性,设计并实现了云计算资源管理平台,对平台的体系架构和关键技术进行了研究,对平台带来的经济和管理效益进行了讨论。
云计算是一种基于互联网的大众参与的计算模式。其计算资源(包括计算能力、存储能力、交付能力)都是动态的、可伸缩的、被虚拟化的,而且以服务的方式提供。提供资源的网络被称为云,云中的资源在使用者看来是可以无限扩展的,并且可以随时获取、按需使用和付费。这种特性经常被称为像水电一样使用计算资源。与其它计算模式相比,云计算因能够整合大规模异构计算资源、易于动态扩展、虚拟化等特点,而成为解决上述问题的一个有效手段。因此,本文针对电力系统灾备中心现状,设计并实现了云计算资源管理平台,以期利用云计算技术解决电力系统灾备面临的实际问题,从而为电力系统的数据级灾备提供支撑。
目前,整个电力行业已经深刻认识到云计算可能带来的巨大效益,开展了大量的电力系统云计算的研究工作,但云计算在电力系统数据灾备中的应用研究才刚刚开始,因此有必要针对电力系统的灾备需求进行深化研究并真正实现云计算在电力系统的落地。本文将首先对云计算资源管理平台的设计与实现进行简要介绍,然后详细讨论云计算平台在灾备中心数据灾备业务中的应用场景以及带来的经济和管理效益,最后给出结论。
1 云计算平台的体系架构和技术实现
1.1 云计算资源管理平台的功能目标
云计算资源管理平台能够对电力系统灾备中心的各类资源(主机、存储、网络等)进行有效的管理、监控和调度,并将资源作为一种服务,通过网络提供给用户。
它的最终目标是:利用虚拟化技术实现对异构物理机和存储的统一管理,把基础设施资源以服务的形式进行封装,以面向服务的方式对外提供;实现对异构资源的有效整合、资源能力的按需分配和动态智能调度;为各类应用系统的运行提供稳定、可动态伸缩、安全的环境;为业务系统提供可快速部署的开发测试环境和运行环境;为云资源建设安全统一的防护体系。概括地说,云资源管理平台能够提供统一运维管理、异构资源整合、资源动态调配、智能扩一容、资产管理、资源监控、服务级别管理、弹性扩充、应用迁移、服务计费计量、流程管理和自动交付等功能,并能够统一资源接入规范,提高资源利用率,为应用提供高可用和高可靠的支持。
1.2总体架构
云计算资源管理平台的总体结构如图1所示。平台分为信息展现、系统管理、资源服务、资源整合、基础资源、安全、接口7大层次。各层次总体思路如下:
1) IT资源层。利用厂商的小型机管理系统管理小型机虚拟化;利用VMware管理x86虚拟化;利用存储网络管理工具管理网络和存储,构建主机和存储的资源池。
图1云计算资源管理平台整体架构
2)资源整合层。整合各厂商的资源管理系统,形成自主知识产权的资源总线,能够统一管理资源池中的各种设备。
3)资源服务层。以服务的方式提供资源,供申请者使用,并能够提供不同等级的服务,达到自动化和智能化。
4)系统管理、信息展现层。使用Flex技术保证易用性,并使用Swiz技术框架来实现模型一视图一控制器(model-view-controller MVC)设计,并充分利用现有平台中的系统管理功能。
5)安全层。与现有目录认证相结合,并结合厂商系统安全机制。
6)接口层。提供对外系统接口。与信息运维综合监管系统(information monitoring system IMS)紧密整合,提供服务接口,从IMS获取性能数据和资产数据,向IMS提供虚拟资源性能数据和资产数据。
1.3关键技术
1.3.1虚拟化技术
虚拟化技术可以改变软硬件资源的使用粒度,因此被奉为云计算环境的基础。计算机系统分为若干层次,从下至上包括硬件资源、操作系统、操作系统应用程序编程接口(application programming interface API)、应用系统等。虚拟化技术可以在这些不同层次之间构建虚拟化层,向上提供与真实层次相同的功能,使得上层系统运行在该层面上。这个中间层可以解除其上下两层之间原本存在的祸合关系,使上层的运行不依赖于下层的具体实现。
本文中的云计算资源管理平台涉及到的虚拟化技术主要分为以下几类:
1)网络虚拟化。是将网络的硬件和软件资源整合,向用户提供虚拟网络连接的虚拟化技术。网络虚拟化也可以分为局域网和广域网,如虚拟局域网(virtual local area network VLAN)就是典型的局域网虚拟化技术,虚拟专用网络(virtual privatenetwork VPN)是典型的广域网虚拟化技术。
2)存储虚拟化。是指为物理的存储设备提供一个抽象的逻辑视图,用户通过这个视图中的统一逻辑接口来访问被整合的存储资源。如磁盘阵列技术就是典型的例子。在云计算中应用比较广泛的是存储局域网((storage area networking SAN)这种基于网络的存储虚拟化技术,而且基于SAN使用一些软件产品,使存储系统的池化更明显。不但可以对相同的存储设备进行虚拟化,还可以对不同的存储设备进行虚拟化管理。
3)服务器虚拟化。使用虚拟化软件在一台服务器上虚拟出多台虚拟机。系统和应用运行在一个环境隔离的、具有完整硬件功能的逻辑计算机系统。服务器虚拟化是在云计算环境中使用最多的虚拟化技术,为了提高服务器的利用率,就要使用服务器虚拟化技术灵活调整服务器资源。
1.3.2资源整合建模
由于云计算资源管理平台需要整合来自不同厂商的服务器、存储设备等异构资源,为了实现对这些异构资源的统一管理与利用,需要对这些异构资源进行统一建模。云计算资源管理平台将IBM小型机及其PowerVM虚拟化平台、HP小型机及其vPar资源分区技术、以VMware为代表的PC服务器虚拟化技术、以及来自不同厂商的异构存储设备抽象为统一的资源模型。在本文的模型中,提出了几个核心的理念:1)无论虚拟还是实体服务器都继承Server,实体服务器模型中包含虚拟服务器。
2)提出VirtualResourceGroup理念,将虚拟机以组的方式统一提供。
3)订单只针对VirtualResourceGroup。
资源模型以及各个资源模型之间的关系如图2所示。
1.3.3资源调度引擎
资源调度引擎是云计算资源管理平台的核心模块。该模块由4个子模块组成,主要功能包括云应用模板/实例管理、调度和生命周期管理。如图3所示。
1)策略引擎。通过策略引擎自定义资源交付、云应用部署和调度策略,并进行决策和执行。策略引擎是资源调度引擎的核心控制单元。
2)调度器。调度模块是应用部署、资源申请、资源规划和资源再分配的控制器。调度模块可以通过开放服务网关协议(open service gatewayinitiative OSGI)方式插入多种调度算法实现,从而实现高度的可定制、可扩展能力,以支持多变的业务场景。
3)资源管理器。资源管理器由资源监控模块和动作执行模块组成。资源管理器负责资源管控、监控指标搜集、云应用运行状态监视,并依赖这些监控信息发起资源分配请求。
图2资源模型以及各个资源模型之间的关系
图3资源调度引擎模块示意图
4)生命周期管理器:生命周期管理器负责云应用从提交部署请求的预约状态到回收状态的全生命周期管理与状态迁移控制。如图4所示。
图4生命周期管理器
元数据库和模板库是资源调度引擎的2个辅助模块。元数据库中存储、管理云应用、调度策略、系统脚本和组织机构等系统支撑元数据;模板库以键值对的形式存储虚拟机镜像模板和导出为开放式虚拟机格式(open virtualization format OVF)包的应用模板。
1.3.4资源调度算法
在大规模的虚拟机集群中,虚拟机数目和虚拟机的负载会随用户和应用的需求而经常变化,静态的资源分配往往会使虚拟机产生资源浪费或资源不足的情况,因此,虚拟机需要进行动态的资源调度:在虚拟机数量偏少和平均负载偏低的情况下,将虚拟机集中迁移到较少的物理机上,并将一部分物理机停机,以达到节能和提高计算/能耗比的目的;在虚拟机数量偏多和平均负载偏高的情况下,启动更多的备用物理机并进行负载平衡。同时,由于虚拟机中的应用负载会随时间变化,因此应及时响应虚拟机负载的变化,适当为高负载的虚拟机分配更充裕的资源,以适应虚拟机对资源的需求。
资源调度算法的基石是虚拟机迁移算法。虚拟机迁移算法分为预拷贝、停机拷贝和后拷贝3个阶段,目前有很多成熟的研究成果可以在100 ms内完成虚拟机的迁移。而资源调度算法的实现则更为复杂。总体上,资源调度算法的步骤如下:
1)获取虚拟机集群中所有物理机与虚拟机的性能监控数据,并针对不同类型资源的特点评估物理机与虚拟机的资源负载状态。
2)根据评估指数值,选择需要调度的虚拟机,并计算合适的目标结点,进行虚拟机的迁移。
3)列举虚拟机集合中所有负载高于上限值的虚拟机,用最佳适应算法寻找调度后物理资源负载最高但不超过物理负载上限阂值的物理机,迁移虚拟机到此物理机上。
本文的云计算资源管理平台使用的资源调度算法的典型流程如图5所示。
图5资源调度算法的流程
1.4主要功能
1)异构资源整合管理。灾备中心有大量的异构资源,存在不同厂家、不同型号的主机和存储设备,云计算资源管理平台具备对异构资源进行整合管理的功能,通过统一的界面管理不同的资源。
2)资源按需申请、自动部署。云计算管理平台为用户提供资源按需申请的能力。用户可通过云计算资源管理平台的界面,提出资源使用需求,经过管理员审核批准后,云计算资源管理平台自动为用户创建所需的资源。
3)资源动态调度。云计算资源管理平台以数量众多的服务器和存储设备为基础,组成计算资源池和存储资源池。云计算资源管理平台会根据管理员指定的策略对资源进行动态调度,包含虚拟机迁移、集群弹性伸缩、无负载物理机转入低功耗模式等,提高资源的利用率,降低总体能源损耗。
4)统一镜像管理。云计算资源管理平台能够提供对镜像文件的高效存储、保证灾备端镜像和生产端版本的一致性、镜像的冗余备份、历史镜像文件的归档等功能。
5)支撑灾备中心特定业务。云计算资源管理平台可根据灾备中心数据验证、数据演练等核心灾备业务流程提供定制服务。
2 云计算平台在电力系统灾备业务中的应用场景
2.1总体介绍
云计算资源管理平台对电力系统灾备业务能够起到重要的支撑作用。在电力系统灾备中心,云计算资源管理平台可以纳管管控区和验证区的所有设备,向各网省和运维系统提供统一的虚拟化数据验证环境和管理软件运行环境,从而提高灾备中心的管理水平和数据验证工作效率。
2.2灾备数据管理
电力系统灾备中心负责电力企业的企业资源计划(enterprise resource planning ERP)及管控、营销、协同办公、一体化平台、生产管理、综合管理等的结构化数据和非结构化数据的灾备。生产端的数据通过网络利用数据库复制技术或存储复制技术备份到灾备中心高端存储上,由灾备中心统一负责管理,并开展常规性的数据备份和验证工作从而保障灾备数据的完整性和准确性。
2.3验证区应用场景
电力系统灾备中心验证区的主要工作内容是为各灾备网省公司验证灾备数据是否正确,使用云计算资源管理平台纳管灾备中心验证区的设备,并使用基于云计算资源管理平台的数据验证(简称云平台验证)方案,可以加快验证周期,增多同时进行数据验证的网省数量,在方便管理的同时提高资源利用率和验证工作效率。
图6, 7为灾备中心现有验证流程和云平台验证流程的对比。
从图中可以看到,整体验证流程涵盖了资源的申请、分配、验证、回收4大步骤,可以为网省公司提供完整的数据验证服务。目前,灾备中心没有数据验证支撑系统,验证工作缺乏IT支持和流程管理,资源分配和回收环节完全依赖手工操作,耗时较长,效率较低,人工介入多且管理难度大,资源独占导致使用利用率有限。而基于云计算资源管理平台的数据验证方式的使申请、分配、验证、回收4大步骤形成闭环,极大提升了灾备中心的数据验证能力。具体分析如下:
图6灾备中心现有验证流程
图7灾备中心云平台验证流程
1)申请。用户(各网省公司)在云计算资源管理平台提出数据验证申请,云计算资源管理平台负责申请过程的审批流程,使原有流程具备IT支撑。
2)分配。分配过程是灾备中心工作量最大的一个步骤,在其中需要分配网络资源,分配主机资源,提供存储空间,配置网络安全访问,配置SAN网络,安装操作系统,安装数据库,导入验证数据。云计算资源管理平台通过使用虚拟化、模板化、自动化的技术,将以上步骤由平台自动完成,灾备中心只需要对用户的申请进行审批,审批通过后根据用户需求配置相应参数,云计算资源管理平台就能自动地完成资源分配过程。
3)验证。使用云计算资源管理平台,由于虚拟化技术的引入,现有的资源可以提供给多个省公司同时使用,从而大大提高了资源的利用率和数据验证工作的效率。
4)回收。由于网省公司使用的验证资源为虚拟化资源,根据虚拟化技术的特点,可以不清空安装内容,而将验证环境保存在存储中,只释放使用的资源。网省公司未来验证时可以继续使用保存好的验证环境,极大地节省了环境部署时间。
由此可见,使用云计算资源管理平台在数据验证的申请、分配、验证、回收环节中,能显著提高验证效率,降低管理成本,提高资源利用率。表1为一些具体参数的对比。
表1 灾备中心现有验证方案和云平台验证方案性能对比
2.4平台带来的经济效益和管理效益
云计算资源管理平台将灾备中心的IT基础设施能力进行聚合,实现异构资源的整合管理,使得IT基础设施资源可以按需分配和动态调度;在云计算环境中,通过对业务应用负载峰谷的计算,得出错峰利用资源的方式,使资源在不同应用之间来回流动,将资源利用率保持在一个较高的水平上,提升IT基础设施的整体承载能力;通过对现有应用和资源的优化整合,可以空余出许多资源,大大节省未来的设备投资;使用统一的界面和流程提供自动化的资源安装、部署、运维能力,减少运维人员的手工操作,减少资源运维和管理成本。
下面从应用运行和灾备数据验证2个方面对平台带来的经济和管理效益进行具体的分析。
在应用运行方面,通过云计算资源管理平台能够以统一的方式部署、运行、维护和管理应用,极大地节省了管理成本,除此以外,云计算资源管理平台实现了应用的隔离运行和资源的灵活调配,在显著提高资源利用率的同时,保障了应用的安全稳定运行。以上海灾备中心为例,使用云计算资源管理平台对管控区的x86服务器、HP服务器、IBM服务器进行纳管,通过资源调配,应用隔离运行等技术手段,提高了同样配置服务器的利用率,并且能够同时承载更多网省展开验证工作,经过初步研究,资源的利用率至少可以提高1倍。通过云计算技术的应用,节省了大量硬件采购成本,具有明显的经济效益。同时,平台实现了运维流程的统一规范和部署方式的自动化,节省了人工投入的时间,极大地提高了运维效率,从而带来了明显的管理效益。
在灾备数据验证方面,使用云计算资源管理平台后,优化了数据灾备的实际流程,缩短了验证周期,增多了同时验证网省公司的数量,提高了数据验证的自动化水平。以上海灾备中心为例,其验证区的x86服务器、HP服务器、IBM服务器通过虚拟化技术、模板技术、验证流程整合等技术手段能够在同样硬件资源能力的基础上,承载更多网省公司同时进行验证,这样可以提高验证效率,减少人工成本。本文对上海灾备中心所纳管的其中一个应用数量中等的网省进行了测试,原来数据验证中分配环节所需时间从一周下降到一天,显然易见,云计算资源平台带来了明显的经济效益。除此之外,以统一的方式申请数据验证资源,自动化地分配和回收资源,能够提高运维效率,规范验证流程,从而带来了明显的管理效益。
云计算资源管理平台在灾备中心的定制应用可以说是云计算基础设施即服务(infrastructure as a service IaaS)层在电力系统业务中的真正落地,切实将云计算技术与电力系统灾备业务紧密相连,使灾备业务由原来的手工操作模式转变为具备IT支撑的流程化、自动化模式,极大提高了电力系统灾备业务的信息化水平。
3 结语
本文总结了电力系统灾备中心信息化进程中出现的问题,提出了将云计算技术引入用以解决问题的具体思路,并就关键技术进行了讨论。设计并实现了云计算资源管理平台,该平台实现了异构资源整合管理、资源按需申请、自动部署、资源动态调度和统一镜像管理等功能。目前,平台产品己经应用于灾备中心的实际业务中,为电力系统数据级灾备提供了有力支撑。
在未来,借助于云计算资源管理平台,可以同时管理电力企业的多个不同灾备中心资源池,达到多中心资源统一管理,提升灾备中心IT基础设施的承载能力,为实现多地集中式灾备中心向一级数据中心的演化奠定基础,同时也为电力系统后期面向应用级灾备的演进奠定了良好的技术基础。
本文作者:朱征 顾中坚 吴金龙 桂胜
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。