锦州东易网络公司:是锦州、葫芦岛、朝阳等企业网站建设的最佳选择并为企业进行baidu google等推广服务!
价格总览
常见问题
付款方式
联系方式
首页
域名注册
虚拟主机
企业邮局
租用托管
网站制作
网站推广
代理合作
客服中心
购物车
 
用OLTP关系数据库管理系统分析数据
发布者:本站站长              发布时间:2006-12-19
 
     随着金融体制改革日益深入,中外银行间的竞争将更加激烈。就个人业务方面,许多银行推出了个人理财服务,以争夺高、中端客户。与此同时,客户的金融需求也呈现出多元化倾向。如果不对客户信息进行收集整理和挖掘分析,客户经理就无法知道谁是能为银行创造利润的高、中端优质客户。目前竞争的关键就在于,怎样发现优质客户、避免优质客户流失。
   利用现有的客户资源优势,把零散无序的数据集中起来,转化为对银行有用的信息,挖掘出为银行创造利润的客户,并为这些客户提供更优质的服务,这是数据集中的又一个重要目标。为此,我们设计开发了个人优质客户分析系统。

   基于以下几方面原因,我们选择了联机事务处理(OLTP,On-Line Transaction 
 Processing)关系数据库管理系统来分析统计数据,而没有选择联机分析处理(OLAP,On-Line Analytical 
 Processing)来实现完整意义上的数据仓库。

   1.开发费用少。采用OLTP关系数据库管理系统只需很少的费用,而实施数据仓库则需动用数百万甚至数亿元的资金。

   2.建设周期短。数据仓库建设周期长,不能及早发挥数据作用。

   3.低风险。实施数据仓库没有现成的经验,风险高。IT实践证明,国外的模式并不一定完全适合于我国的国情(如账务数据多、账务复杂、单笔交易金额小、账户平均余额小等),四大国有商业银行的账务数据量之大可能是欧美任何一家大银行都无法相比的。

   我们选择了银行业常用的Information,运行在Unix PC服务器上。
 一、实施过程

   虽然我们建设的不是数据仓库,但开发过程与建设数据仓库一样,分为以下几个过程。

 1.定义

   收集和分析决策需求,由决策需求确定数据源,定义数据库的环境和设置,定义并设计数据库。本项目主要针对银行个人客户,将与个人业务有关的数据确定为数据源,如个人储蓄数据、个人贷款数据、个人外汇买卖数据、个人网上银行数据和其他个人中间业务数据。

   数据量的估算和数据空间的分布也在此阶段完成。

 2.获取数据

   源数据可以是历史详细数据和当前详细数据。由于数据在集中前经历了许多项目改造过程,历经多次转换,每次转换又不可能保留原始的交易数据,所以没有采集历史交易数据。

   当前详细数据主要有客户基本信息、客户地址信息、活期与定期存款账户、个人贷款账户(包括住房贷款与消费贷款等)及额度信息、与卡相关的信息等,也包括存贷款利率、汇率等。由于数据集中系统并没有把个人住房贷款包括进去,所以数据源涉及数据集中和个人住房贷款两个系统。

 3.数据转换与数据清理

   由于获取的各种数据格式不统一,数据类型也不同,因此,需要对这些数据进行检查、核对、整合等相关处理。如检查数据的完整性,核对数值的有效性,清理掉错误的、受过污染的数据源等。数据集中系统在IBM大机ES900上运行,数字以EBCD码存放,采用COBOL语言实现,因此还必须采用工具把COBOL语言的数据类型转换为相应的关系数据库数据类型。

   历史上,由于一些数据是面向账户而不是面向客户的,实行实名制前的账户与客户间无法对应,这些对于分析没有任何意义的账户应予以清理。同时,将一个个人客户开列的几个甚至几十个金额较少、活动率较低的活期账户集中到数据库中,既浪费数据空间,对数据分析也没有实际意义。因而,对账户余额少于一定标准的长期不动户也要进行清理。数据清理还包括删除已清户的数据和删除对公数据等。

 4.数据加载与更新

   把经过整理转换的数据通过加载工具或程序加载到相应的数据库中。在实现时,数据的加载、更新与转换工作一并完成。同时,我们设计了与数据集中系统和个人住房贷款系统相对应的数据表,用以存放原始数据。数据集中系统和个人住房贷款系统每日日终处理后的数据采用全量或增量的方式加载或更新到数据库管理系统中。

 5.数据与信息的重组

   装载更新后的数据要进行重组,按照决策需要,把数据组织成不同主题的数据库表。我们把所有的原始数据归纳重组为客户信息、账户信息与交易信息,建立客户余额统计表以存放每个客户的存款额、贷款额、消费额、外汇买卖交易额等,数据的抽取分析围绕客户余额统计表展开。

 6.数据统计与分析

   按照业务部门定下的参数标准(存款额、贷款额、消费额、外汇买卖交易额等),我们采集到的潜在优质客户数约占总客户数的2%,这是一个比较理想的比例。在采集的活期账户数据中,我们发现,当账户数大于十万时,不论采集的样本多大,余额大于1000元的账户数总是占样本总数的20%左右。

   基于采集到的数据,我们可以按照客户日均余额、内部资金转移价格、贷款利息收入、中间业务手续费收入等计算出每个已签约的优质客户的贡献度,从而发现哪类客户带来利润,哪类客户消耗成本,从而为个人业务的开展提供参考。 
二、数据问题

 1.数据的完整性与正确性

   从项目的实施过程中,可以看到金融信息化从最初的手工操作到单机处理、综合业务网络系统处理,再到柜面业务系统,最后发展到数据集中的过程。从面向账户到面向客户,其间经历了多次数据转换,各种数据难以确保完整。
 在项目实施过程中,业务处理上的不规范也暴露出来。如客户的惟一标识是身份证或其他证件,仅身份证号码就错误百出,号码有14位或16位的,15位的身份证号码中含有字母等;有的贷款客户有多个客户号,同一客户有多张信用卡等等。这些都难以保证数据的完整性与正确性,都有可能给银行经营带来风险。

 2.数据的质和量

   在实施过程中,我们深深感到,无用的数据是有害的,银行应注重数据的质而不是量。我们发现相当比例(约占20%)的活期储蓄账户(包括卡账户)为长期不动户,这部分数据占用了大量的存储与运算资源,严重影响了处理性能。
 三、性能问题

   一般的数据分析系统响应速度没有联机交易系统高,但有一定的业务要求。每天的增量数据转换、装载、抽取、更新必须在规定的时间内完成。数据存储与数据访问,是数据分析系统实施过程中最为关键的两个问题。

 1.采用存储过程

   为提高处理性能,我们采用了存储过程而没有采用嵌入SQL。在存储过程执行之前,SQL语句经过分析、认证、编译、限定等,以编译形式存放在RDBMS服务器中,SQL语句是静态的,执行时不需要编译即可调用,连续执行只需较小的开销即可实现,从而改善性能。而动态SQL每次运行都需要较大的预处理开销。有数据表明,实现同一个功能,采用存储过程所需的时间只是采用嵌入SQL的20%。

 2.RAID与性能

   虽然PC服务器存储系统在理论上可以扩充到数百个G,价格上也便宜,但其磁盘性能并没有得到与容量/价格比相当的同步增长,存储器与计算机间的数据传输速度比计算机运算速度一般慢2~3个数量级。而采用RAID(廉价冗余磁盘阵列)技术,从字面上看,其目的主要是提高可靠性,但其应用仍然受到了磁盘性能的严重约束。在RAID7个级别中,很多用户一般从可靠性角度考虑选择RAID5。RAID5是基于奇偶校验的结构,仅把逻辑写操作转换为多个物理写操作,从外部看,只提高了可靠性,性能方面并没有得到提高(磁盘使用得越少,I/O性能越好,三个磁盘的性能肯定比同样容量一个磁盘的I/O性能差)。尽管我们考虑了影响性能的诸多因素,性能仍得不到实质性的提高。一些应用程序运行时,由于I/O的瓶颈,用户的可用资源几近于0。

 3.OLTP RDBMS的局限性

   OLTP 
 RDBMS的局限性在于并行处理能力和复杂查询处理能力较弱。由于OLTP系统查询相对简单,依靠建立适当的索引保证查询速度,对RDBMS大数据量并行处理能力要求不高。但是依靠索引来提高查询速度,索引过多就会占用过多的磁盘空间,增加系统的复杂性和管理成本。许多OLTP 
 RDBMS用于数据仓库时,其磁盘使用率,即数据库大小与真正用户数据的比例在5以上。

   另外,索引只能解决那些预先定义好的问题,而一般的数据分析系统用户在起始阶段一般提不出清晰明确的需求,随着用户自身认识的增长,在项目后期用户才能有比较明确的需求。这样,传统OLTP关系数据库管理系统就很难满足业务功能的可扩展性。我们的PC服务器有两个处理器,但处理器的并行并不能解决I/O的瓶颈问题。

 4.性能问题的解决

   解决磁盘I/O瓶颈最基本的方法是分散负载。根据数据内容把数据归类存放在不同的物理设备上,通过不同的I/O总线连接。这样,优化程序可以用数据分区规则进行分区查询,并发线程可以被并行分配给排序、合并、扫描、连接、选择和投影等操作,实现真正的数据分布并发处理。

   为了提高I/O性能,同时保证可靠性,可以采用RAID10、RAID1+0或RAID0+1替代RAID5,但要突破数据存储与访问这两个瓶颈,最好采用专用的数据存储系统与数据仓库管理系统。
 尽管OLTP关系数据管理系统存在局限性,但在目前还没有数据仓库建设经验且用户也没有比较清晰的需求的情况下,为了在激烈的市场竞争中发现并留住已有的优质客户资源,OLTP关系数据管理系统的确是一个快捷又节约费用的选择。我们在项目实施过程中积累的业务与数据分析处理的经验,也将为实施数据仓库工程带来有益的帮助。
  
 

                锦州市上海路四段6-72号
电话: 0416-2135535 (锦州东易网络公司销售咨询电话)
客服:0416-2135935传真:0416-7129002-0054邮箱:de@wwwde.net.cn
辽ICP备06018560号
锦州东易网络公司中国万网金牌分销合作伙伴,您可以搜索以下关键字!
锦州网络公司、锦州网站建设、锦州网站优化、锦州域名注册、锦州网络推广、锦州网站推广、锦州网站制作、锦州网站维护、锦州网页设计、锦州网站设计、锦州网页制作、锦州空间租用、锦州软件开发、锦州企业信息化、葫芦岛网络公司、葫芦岛网站建设、葫芦岛网站推广、葫芦岛网站优化、葫芦岛域名注册、葫芦岛网络推广、葫芦岛网站制作、葫芦岛网站维护、葫芦岛网页设计、葫芦岛网站设计、葫芦岛网页制作、葫芦岛空间租用、朝阳网络公司、朝阳网站建设、朝阳网站推广、朝阳网站优化、朝阳域名注册、朝阳网络推广、朝阳网站制作、朝阳网站维护、朝阳网页设计、朝阳网站设计、朝阳网页制作、朝阳空间租用、朝阳软件开发、朝阳企业信息化、盘锦网络公司、盘锦网站建设、盘锦网站推广、盘锦网站优化、盘锦域名注册、盘锦网络推广、盘锦网站制作、盘锦网站维护、盘锦网页设计、盘锦网站设计、盘锦网页制作、盘锦空间租用、盘锦企业信息化、营口网络公司、营口网站建设、营口网站推广、营口网站优化、营口域名注册、营口网络推广、营口网站制作、营口网站维护、营口网页设计、营口网站设计、营口网页制作、营口空间租用、营口企业信息化