一、 业务背景

数据仓库的概念在二十世纪七十年代到八十年代形成,在理论层面上基本认同了以下的观点:应当把那些新出现的、 不可以预知的、但又大量存在的分析型的负载从业务处理系统中剥离出来,采用专门的体系架构和设计来进行处理,这些理论创新引起了数据仓库的诞生。

企业数据仓库是企业单一的、中央的数据仓库,集中存储企业最小粒度的详细数据,跨越企业所有的业务和功能领域。通过把所有数据收集并整合到单一的数据库中,提供单一的视图,提供跨部门、跨业务的分析能力,增强基于数据进行决策的能力。换言之,数据仓库是银行的决策分析信息平台,它就仿佛人的大脑:一是拥有记忆,记录银行的各种历史数据;二是包罗万象,记录银行的各种明细数据;三是会思考,可以业务规则和业务逻辑进行决策分析。换言之,它就是银行的智能中心。

数据仓库在中国银行业的实践经历了概念期的盲目认知阶段, 难以见效的怀疑阶段之后,如今逐渐回归到了一个理性阶段。

铭峻科技分析认为: 传统的数据仓库设计指导思想—“数据为王”是一种技术化的思路, 容易把数据仓库的建设重点放在基础软硬件设计、基础数据模型设计、 ETL 技术等, 而忽略了对应用效果的考虑。 中国银行业目前基于数据仓库的大部分应用还是以统计为主, 而对于分析和挖掘的需求仅限于来自于国外理念的信用卡业务和风险管理技术; 因此,同样来自于国外理念的数据仓库技术在面对国内的统计需求时, 容易出现“需求与模型错配”, 增加数据加工的路径和复杂度,影响数据的时效性和准确性。

基于此,铭峻科技认为, “应用为王、数据为本” 才是符合中国银行业实际情况的数据仓库建设的合理化方向。 其基本思路是:数据模型主题的设计、数据集市范围的确定、数据标准的制定、数据管理的流程、数据加工的策略等关键任务均以应用为核心,避免仅从数据角度建模。同时, 也不能完全直接引入国外所谓的业务建模,因为从管理的角度看,中国本土文化决定了国内银行业的管理理念和方法很难与国外相同, 意味着国外的业务建模很难适应国内的应用需求。 从这个意义上看, 国内银行管理需求业务建模才是国内数据仓库建设的本质,亦即“应用为王” 。

二、整体架构

我们充分分析了银行业务系统以及管理应用需求,设计了银行数据仓库的整体技术架构,如下图所示:

在技术架构体系中一共包括如下内容:

元数据管理:能够为数据仓库提供血统分析、影响行分析、孤立性分析等;

数据质量管理:是数据仓库之上建立一套自检查体系, 数据质量的内容包括数据的完整性、 唯一性、有效性、准确性、 一致性和时效性等;

数据服务区:是数据仓库的核心,包含着临时区、 PDM 区以及汇总区, 汇总区是基于基础层建立的为跨主题和跨源系统的共性需求提供经过轻度汇总的当前和历史数据;

ETL 统一管理:由铭峻科技自主开发了强大的ETL 管理调度工具, 简单易用,具有强大性能优势,在业界已实践多年;

数据实验室:数据实验室通过快速的加载和分析新的业务数据来实现敏捷的业务分析,还可以从仓库中现有的数据进行加载分析,能够快速的建立业务分析的原型;

我们根据国内外先进银行多年的数据类应用实践,经过归纳总结,可以得出数据仓库在银行业的主要应用领域和业务价值创造机会,主要包括以下几类:客户管理、运营和绩效管理、财务管理、风险管理、信息管理。在每一个领域内,又可进行细分,以充分发挥数据仓库业务价值。如下图所示:

基于上述理念,我们提出了典型的银行数据分析类应用架构。

对于上述应用主题的集市建设,应遵循下列设计原则:

坚持需求驱动:数据仓库是发展方向,也是新技术,前提是在引入该应用时,要有清醒的认识,时机要合适,规模要适当;

避免贪大求全:不要认为数据仓库实现的功能无所不有,结果造成投入与期望不符。一方面,技术人员要为将来的使用人员如实地描画未来数据仓库的功能,另一方面,使用人员在提供自己需求时,能够更客观、实用、具体。把无关紧要的数据都放到数据仓库中,容易导致过于庞大的数据库响应缓慢、难于维护;

平台环境适当:根据数据仓库的特点,在计划配臵方面,与 OLTP 应用环境是不同的。其特点是数据存储的需求量大.其中不但包括大量的各级综合数据及索引数据,还应当考虑更多的临时空间用于排序操作和数据汇总;

确保数据质量:数据的抽取、转换和装载( ETL)是数据仓库建设中一项非常重要而繁琐的工作,在系统实施过程中需要由专人负责。

三、方案特点

落实数据标准。通过数据标准在数据仓库中落地,全面加快客户、产品、协议、交易、财务、资产等主题的基础分析数据标准的推广工作,进一步推动数据标准在全行业务层面和重要IT 系统中的落地,逐步实现数据标准的统一。

实现集中共享。通过实施数据仓库,真正实现核心、信贷、资金、总账等系统信息的物理和逻辑集中,同时对进入仓库的数据按照标准规则进行清洗,并根据数据仓库主题进行加载存储,为海量数据计算及复杂模型处理提供强大的技术平台,实现银行数据的全面逻辑集中。数据是全行的资产,数据共享是实现数据最大化应用的前提好保障。

提升五大应用。 通过数据仓库建设,全面提升银行五大业务主题的应用,包括:客户关系管理、风险管理、财务和绩效管理、资产负债管理及监管合规等。

支持高层决策。通过数据仓库建设,有效管理快速增长的数据,支持并基于管理驾驶舱系统,全面、及时、准确的展现总分行重要的运行状况与趋势,为高层管理决策提供支持。

削减手工报表。 在进一步统一和规范银行重要报表工作流程的基础上,数据仓库重点提升和推广开放数据服务和固定报表系统,将数据仓库系统逐步渗透到日常工作的每个环节,最大限度减少手工报表。

挖掘数据价值。推动和引导业务人员开展即席查询、组合分析、数据挖掘等商业智能应用,在保证数据安全的前提下,挖掘数据价值,提升银行核心竞争力