银行软件研发中心培训资料:数据集成规划研究介绍讲义.ppt
数据集成目标
用于批量数据(文件)的周期性交换、通过数据获取、数据转换、数据分发、为目标应用提供符合业务要求核技术规范的数据。内、外系统的批量式(文件)交互都采用该系统。
当前与数据集成功能类似的相关系统
通用文件传输。
数据交换平台(主机、开放平台)
当前系统存在的主要缺陷
数据传输:平台与主机之间难以无缝连接,手工处理太多,时效性问题(不能随到随处理),与数据源及目标系统的自动交互性差
数据交换平台(主机、开放平台):分为主机及平台两大模块模块间存在数据交互问题,数据路径长,定位模糊承担了一些分析型功能,在平台化可扩展性方面能力不足。
1、数据集成应用,应当成为我行批量的、数据量较大的、实时性要求较低的数据传输和数据初步处理系统。
2、数据集成应用关注于提供两方面的能力,即建立我行高效、安全的数据传输通道和实现重要数据的统一加工处理。数据加工处理应当是可以穿透的,即针对不同的需求,数据集成平台既能够提供数据传输的快速通道,也可以具备数据处理的能力。
数据的加工处理功能分布情况,分为三类:
第一类:较高时效性要求的,且只涉及一个应用的数据源就能加工处理的,以及原表简单下载,由源数据系统进行加工处理。(T+1及第二天开门营业前需要的数据)。目标系统直接使用数据。
第二类:较高时效性要求的,涉及多个应用的综合处理,由数据集成平台的数据处理层处理。(尽量处理存在共享性的)。
数据处理层的准入原则:1)只加工处理本期数据(即系统不积累数据,不合并上期数据);2)涉及多个应用综合处理,单个应用数据源无法处理的;3)存在较高时效性要求的(T+1,每个数据在数据处理层处理不超过3小时内)。
第三类:涉及多个应用数据源且复杂的分析型处理,在时效性方面没有严格要求的(一般允许T+2以上)的,由企业级数据仓库(EDW)进行处理
跨平台,建设一套集中数据处理系统,不区分主机及开放平台两套平台。
源数据的存储规则(根据数据处理层的原则,不做历史数据积累,但是考虑到功能上的适应):
对于客户信息类数据:保留最新快照存量数据,即系统需要进行当日增量与昨日存量进行整合。
对于分户帐级别数据:保留最新快照存量数据,即系统需要进行当日增量与昨日存量进行整合。
对于交易明细类、日志类数据:原则只保留当日数据。
在源数据存储方式按与原系统一致的数据模型。
数据处理层的源数据与原系统,对于存在增存量合并的表需要定时核对,如提供每周核对一次,确保数据处理层的源数据与。
根据上述的数据评估,其数据规模在4T左右
功能如下:
基于最新快照的客户信息、分户帐、当日明细,并涉及多个应用的统计类数据的加工。对于直接原表下载的功能,在原系统处理,不在数据处理层处理。
对于加工结果数据,输出后不做历史保留,即输出给其他应用系统后即可清理加工结果数据。
基于统计加工的需要,需要业务维护的统计处理使用到的参数表由原系统维护,数据处理层不单独新增需要业务维护的参数表。但可单独增加纯技术性的参数表。
对于系统时效性方面的要求,要求从到达数据处理层,包括导入、增存量合并、统计输出文件,最长路径处理不超过3小时。提供提供并行批量处理和作业管理功能。
对于系统可扩展性的要求,平台要求能提供负载均衡功能,可根据统计处理需求的增加,增加处理节点。