Hadoop 平台在金融银行业的应用架构
薛强彦
一、金融银行业现状
随着我国金融银行业的发展和网络通信基础设施水平的提高,金融银行业信息化已经逐渐普及,但是随着互联网技术和应用的飞速发展,许多新兴的支付方式不断涌现,金融银行业的数据信息量也在快速增长,相关业务数据量急剧上升,金融银行业即将进入大数据时代。
由于关系型数据库先天性不足,巨大的数据量会对传统的关系型数据库模式带来巨大的压力。因此,目前金融银行业采取的普遍应对策略是:1.增加核心系统的机器性能和存储空间,提高业务数据处理能力;2.备份历史数据,减少核心系统的数据存储量,减轻核心系统的压力,从而提高业务数据处理能力。但是采取以上的策略会导致以下不足:1.增加机器性能和存储空间,直接加大了核心系统运营维护成本;2.大量数据离线存储,导致客户无法快速获得交易信息,降低客户满意度,导致客户流失;3.由于大量数据离线存储,银行企业无法分析全量业务数据,无法正确把握银行业发展方向,从而不利于银行企业竞争和快速发展。
二、Hadoop技术的发展现状
Hadoop 平台架构是对传统架构的颠覆和革新,它可以实现低成本的海量数据存储,完全支持分布式计算,支持高级数据挖掘算法模型,将大数据的挖掘应用推到了一个新的高度。
Hadoop 技术目前已经在互联网行业和电子商务行业得到了广泛的应用,它可以实现海量数据的低成本存储、数据的高效计算和数据分析。目前,阿里巴巴集团采用 Hadoop 技术实现了淘宝商品数据存储和交易数据动态分析,已经为他们带来了巨大的利润。采用基于Hadoop 技术在应对大数据时代的优势十分明显,越来越多的企业会采用这种技术解决他们面临的大数据问题。
三、Hadoop技术在金融银行业的应用架构
基于Hadoop 技术的特点,可以用它来存储银行业的离线数据,并开发相应的算法对这些数据进行挖掘分析,提高银行企业对历史数据的利用价值。
目前,银行企业的业务基本逻辑架构由外围系统、前置业务系统和核心业务系统组成,如下图所示。
外围系统:负责直接与客户进行交互,提供业务服务,所有与银行业务相关的系统,均可以归为外围系统。
前置业务系统:业务交易数据的跳转,它负责接收来自外围系统的交易数据,然后根据交易码的不同,转送不同的核心系统进行处理,同时把从核心系统返回的处理结果返回到外围系统。
核心业务系统:负责处理所有交易业务的具体实现。
银行企业使用Hadoop 平台技术的基本思路是:保持原来系统架构不变;在核心系统层,增加Hadoop 平台系统,实现核心系统的历史数据存储备份;对外提供数据查询功能;还可以根据数据存储特点,提供数据挖掘处理功能。
增加Hadoop 平台系统后,银行业务基本逻辑架构如下图所示。
外围系统:不发生不化。
前置业务系统:根据不同的业务代码,将外围系统的某些查询业务转送到Hadoop 平台系统中进行处理,然后将处理结果返回到外围系统。核心业务系统:定时备份需要的核心数据到Hadoop 平台系统中,以实现某些查询业务需求。
Hadoop 平台系统:根据业务需求,利用从核心系统导入的历史数据,对业务交易进行处理,并将处理结果,通过前置业务系统,返回到外围系统,也可以将处理结果返回到核心系统的数据仓库,以供某些报表功能展示需要。
Hadoop 平台系统为了满足金融领域服务需求,系统内部架构采用MVC 的模式进行设计。首先系统上层,通过接口模块和展示模块,从外部系统获取资源,然后将处理后的结果通过展示模块进行展示。系统中间处理层,会针对不同的业务需求提供不同的业务处理功能模块,对数据进行加工处理和数据算法挖掘,以便生成满足需求的各种数据。系统底层,利用Hadoop 平台系统,进行数据大规模存储,提供HBase 数据库,进行非结构化的数据存储。
通常采用的功能模块结构如下图所示。
每个功能模块的具体说明如下。
源数据模块
主要功能是为系统提供加工处理的源数据。在金融银行业中,这些源数据是他们的核心业务数据。
接口模块
主要功能是针对不同的数据源和数据格式,提供对应的数据导入处理方法。
功能应用模块
主要功能是根据业务处理需要和系统运行需要提供对应的功能处理模块,功能应用模块中包含数据挖掘算法、业务处理流程等。
数据模块
主要功能是提供HBase 数据库,对非结构化数据进行统一存放管理,提供HDFS 文件系统,提供数据多副本备份存储管理。
展示模块
对处理后的结果进行Web 页面展示,同时还要根据原有系统的需求,提供不同的数据展示处理方式。
金融银行业对数据存储安全要求非常高,因此系统必须设计异地容灾备份存储。应将Hadoop 平台系统软件在不同的机房集群中进行部署,系统采用主备集群的模式进行部署,通常采用的物理部署结构如下图所示。
四、Hadoop技术的架构优势
将上述架构方案引进金融银行业中,将充分利用以下优势。
1.充分利用Hadoop 平台技术的存储优势。Hadoop 平台可以提供PB 级的数据存储,可以把银行业务产生的所有业务数据都存储到Hadoop 平台系统中,实现海量数据存储。
2.充分利用Hadoop 平台技术海量数据快速搜索功能。百万亿条记录,毫秒级搜索结果,可以为用户实时提供任何交易时间的交易数据,提高了客户的满意度,实现了以客户为中心,提高了银行的竞争力。
3.充分利用了Hadoop 平台技术的数据挖掘功能。可以根据业务需求,编写数据挖掘算法,利用交易数据,快速定位企业非法洗钱的交易记录,为监管帮忙,提供了有力的技术支撑。
4.利用Hadoop 平台系统,承担了核心系统某些消耗性交易(例如:账号历史数据打印查询功能的交易),让核心系统更好地处理实时交易业务,充分发挥传统数据库的优势,做到优势互补,从而保证金融银行业IT信息系统的持续健康发展。
目前,天云大数据公司,已经将上述架构解决方案成功应用到某银行的历史数据查询系统中,实现了该银行所有账号的交易历史记录毫秒级响应查询结果。因此,Hadoop 平台技术必将对金融银行业应对大数据时代的到来提供强有力的技术保证。
作者介绍:薛强彦,计算机专业硕士,长期从事存储软件、大数据相关技术的开发工作,有多个电信运营商、金融行业的大数据解决方案架构师经验及项目管理经验。目前在云基地——天云大数据担任项目经理及架构师。
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。