2015-09-16 00:00:00
来 源
中存储网
运维基础
招商银行使用了IBM智能运维(IT Operations Analytics)解决方案, 它可以实现海量日志的收集、查询和KPI计算。利用日志管理模块,可以将相关日志汇聚进行统一搜索分析,快速定位问题。

一年一度的双十一电商购物节又将来临。在这个即将到来的不眠之夜,除了连夜抢单到手软的败家网友,街头的快递哥们也正在紧张忙碌地派发着快件。而在位于招商银行深圳研发中心大厦的招行IT运维总部里,却看不到一丝的忙乱。办公区上方的大屏幕正显示着招行各业务系统的IT系统状况,各项指标运行平稳。

类似的景象并非偶然。在面对大流量的双十一购物节和每年春运前后的抢票季,这里总是井井有条。而井然有序的背后,是一套领先的IT运维管理系统在大显身手。

事前管理和敏捷运维:应对银行IT运维新挑战

在招商银行IT运维管理开放平台主管张翔眼中,新业务上线周期缩短和移动端应用快速增加是银行IT系统建设和运维目前面临的主要挑战。

“目前互联网和移动互联网发展迅猛。从业务角度来看,银行希望能快速推出新的业务,并且功能方面也要能快速迭代,这与目前激烈的竞争环境有关;而以手机银行为代表的移动端应用正在快速增长。对银行IT系统这边的要求来看就是从开发到运维都要更加地敏捷”。

“结果是,传统的瀑布式开发和运维模式已经越来越不适应目前的银行IT应用环境了。随着银行业务的快速变化和增长,银行对支撑业务的IT基础架构的管理要求越来越高。如何保障业务长期稳定、高效的运行,如何能更快地发布应用,根据客户业务量进行应用调度,及时甚至预测性地发现、定位、诊断故障对IT运维来讲都是很大的挑战。事前管理和敏捷管理能力至关重要。”张翔表示。

智能运维解决方案助力招商银行

运维无小事。像双十一、618这些互联网电商促销日以及春运前后抢票这样的时点对于IT运维的冲击是非常大的,需要系统在瞬间提供很好的支撑。而类似的脉冲式交易模式也越来越频繁,需要银行做好常态化准备,而运维的事前管理能力与响应速度更是关系着企业运营的命脉。

其实很多人都非常好奇类似像招商银行这样的流量大户如何平安应对像双十一和春运抢票这样的流量洪峰。张翔也介绍了招行在这些传统交易密集期到来前如何做好IT运维的准备工作。

首先是做性能容量评估。这需要采集大量的历史数据。包括平时和过往这个交易量的历史数据和它的一些增长趋势。结合交易量的变化来分析可能产生的这种交易量的冲击。然后运用一些性能分析的工具,得出一些理论值之后,保证系统能够具备一个相对流量冲击来说更加弹性的架构,即为可能的流量越线准备出足够应付的弹性计算、存储和IO容量。同时还要构建监控系统和一些辅助系统。在高峰期需要实时监测交易洪峰,在某个时点如果是意外出现故障的情况下,需要迅速进行故障隔离和新服务能力的切换。

基于这一需求,招商银行使用了IBM智能运维(IT Operations Analytics)解决方案, 它可以实现海量日志的收集、查询和KPI计算。利用日志管理模块,可以将相关日志汇聚进行统一搜索分析,快速定位问题。同时它还可以将非结构性资料(如问题单,知识库等)纳入分析,不仅加速排除问题,也提升了运维整体效率。除此之外,该解决方案涵盖的预警模块,将既有的监控KPIs纳入了分析,实现了提前预警,同时也避免了系统中断,更能够协助快速找出可能出错的几个KPI作为进一步问题溯源的基础和依据。

通过将预警和日志分析功能相结合,IBM 智能运维解决方案帮助招商银行实现了IT运维的闭环(监控-预警-根源分析-修复),提高了运维的服务质量和价值。而类似黑客攻击这样的貌似独立事件也能更容易地发现蛛丝马迹,以便跟踪排除。使用该解决方案后,招商银行将问题的查询时间从20-30分 钟减少到了20-30秒,加速排除故障, 大幅降低MTTR(问题恢复时间)。

招行深圳IT运维总部办公区上方的IBM智能运维解决方案显示界面

正是这个整合运维平台在招行面临大流量冲击时能够更加游刃有余,也提升了招商银行运维管理的水平和能力:系统帮助招行从大量的IT基础架构事件中分离出关键事件,整合与业务关联的所有基础架构信息以及它们之间的关系,加速发现问题、分析问题的过程,实现业务问题的预测和快速诊断。提高了运行部门对业务根源问题的分析和诊断能力,为业务系统的稳定运行提供了保障。

IT运维的未来:从自动到主动

透过IBM智能运维解决方案, 招商银行在过去建设的IT运维系统与管理制度的基础上, 从过去的事中与事后管理, 迈入事前管理的时代, 更积极主动的保护招商银行的业务生命线。张翔认为,智能运维是云环境下不可缺少的能力,也是IT运维未来发展的重要方向。

张翔透露,招行正在着手通过大数据平台研究一些运维指标的相关性。通过分析某几个行为可能会导致另外一个变量的变化,以预测可能的故障。这种预测是不带假设条件的,尽可能多的把各个维度的指标采集后归类处理,基于已知或者未知场景的推导进行分析, 通过预警平台的自学习与自动建立模型来进行处理。而招行也对IBM的方案寄予了更高的期望。

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。