对企业征信系统数据质量的研究.doc_第1页
对企业征信系统数据质量的研究.doc_第2页
对企业征信系统数据质量的研究.doc_第3页
对企业征信系统数据质量的研究.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对企业征信系统数据质量的研究中国人民银行广州分行征信管理处季刚2006年7月,企业信用信息基础数据库(以下简称“企业征信系统”)实现全国联网运行。截至2007年底, 全国企业征信系统收录的企业和其他组织数量达1331万 家,其中有信贷记录的企业及其他组织达612万家,接入 顶级金融机构914家,查询网点6.6万个,2007年全年日 均查询量达8.1万次。随着企业征信系统在全社会的广泛 使用,数据质量的问题已经成为进一步推广和应用企业 征信系统的瓶颈。是否与现实世界保持一致的标准。一堆过期的数据或已经不用的数据指标与废品、垃圾没有任何区别。 (4)数据的及时性用来判断数据所代表的时间是否与期望时间相符合的程度,是数据的时间标准。 (5)数据的完整性是指在数据采集过程中,采集全部所需的数据,且在数据的类别和数量上满足当前任务的 需要。(6)数据的准确性是指数据测量值与真实值相比的符 合情况。准确性越好的数据,其误差值应该越小。数据质量的6个属性从不同角度说明了对数据质量的 要求,同时也是对数据报送全过程中不同环节的要求,从 而形成了对数据质量既相互独立,又相互影响的统一要 求。从图1可以看到,数据质量的6个属性分别是对数据报 送之前、之中和之后的数据质量要求。数据结果的完整性、 准确性取决于数据报送的口径是否适用、一致,数据报送 的时间是否有效、及时。因此,要想使数据结果完整、准确, 首先必须制定适用、一致的数据标准,然后是保障有效、及 时的数据传送。事实上,数据除拥有上述质量属性外,还具有可 取得性、可衔接性、可解释性、客观性、专业性、可比 性等非质量属性,但这些属性对数据质量影响的作用不 大,所以不列入我们对数据质量讨论的范围。一、数据质量的属性直观上看,数据质量的概念似乎是显而易见的。但认真研究起来,它并不是一个边界清晰、视角单一的概念。传统 的数据质量仅指其准确性,通常用统计误差进行衡量。而当 前比较流行的观点是从数据使用者的角度定义数据质量, 即“高质量的数据应该是能够充分满足用户使用要求的数 据”,它包含了数据的适用性、准确性、完整性、及时性、有 效性和一致性等多重质量属性。(1)数据的适用性是指所收集的数据是否有用、是 否符合用户的需求。不同的数据具有不同的使用范围, 数据的准确性要求它进入正确的专业应用,即数据不在 于多少,而在于适用。否则,无论多么准确、及时的数 据,都不能产生任何效益,甚至会给使用者带来损失。(2)数据的一致性是指集中共享的数据属性是否具有 相同的数据值。统计口径或数据基础单元是否一致都将 严重影响数据的质量。(3)数据的有效性是判别数据在使用的时间和对象上二、当前企业征信系统存在的数据质量问题由于企业征信系统采集的数据量庞大、数据类别多,导致数据质量的问题也是复杂多样的。当前企业征图1 数据报送过程中对数据质量的要求信系统数据质量存在的主要问题有以下几个。一是数据总量存在较大偏差。企业征信系统统计的 数据总量与金融机构手工报送的数据总量存在着较大偏 差。以广东省2008年6月的信贷数据为例,流量、存量和总 量的偏差分别为11.47、2.58和3.50(见表1)。由于总 量的基数大,偏差的金额达到1123亿元。依此类推,全国 数据总量的偏差可想而知。海市地方性金融机构(含部分外资银行)的贷款卡信息为3069户,贷款卡串户的有11户,数据占比虽然不高,但 对企业的贷款行为将会产生严重的不良影响。四是大量历史遗留数据无法正常处理。这部分数据 主要有三类:第一类是金融机构已经核呆或剥离了企业 信息,但企业过去发生的业务数据仍然保留在企业征信 系统中;第二类是从原银行信贷咨询登记系统中迁移出 来的数据,由于信息不全或需要旧指标关联,使新发生 数据无法更新、上报;第三类是因贷款卡信息不全或金 融机构误操作产生的错误数据,导致新发生的业务数据 无法更新、上报。以广州市商业银行为例,截至2008年6 月,该行对外发放贷款总额为332.3亿元,因贷款卡信息 不全而无法上报信息的金额达3.32亿元,占贷款总金额 的1。表1 广东省2008年6月信贷数据(单位:万元)三、企业征信系统产生数据质量问题的原因二是数据明细存在较多差错。企业征信系统中记录的业务信息与金融机构实际发生的业务情况存在着明显 的差错,主要表现为有记录没业务、有记录已结清、有 业务没记录、有业务记录错。以广东省近期开展的企业 征信系统贷款卡核对工作为例,全省地方性金融机构(含 部分外资银行)的贷款卡信息为202 404户,金融机构系统 与企业征信系统完全一致的贷款卡信息仅为78 007户,准 确率只有38.54。三是企业业务数据存在串户现象。即企业甲发生的 业务信息经报送之后,在企业征信系统中显示企业乙的业务信息。仍以企业征信系统贷款卡核对工作为例,珠影响企业征信系统数据质量的因素很多,从系统建设初期数据标准的建立、数据流程的设计,到系统运行 中数据采集、审核、录入、传输和处理等各个环节都有 可能产生数据误差。我们应该对每个环节进行认真的分 析,将数据误差尽可能控制在合理的范围内,以保障数 据的质量。1.对数据质量的要求认识不足目前,企业征信系统的数据标准在适用性和一致性 方面存在着一定不足。其原因是对数据质量的要求认识不 足,在系统开发初期,没有严格按照数据质量的适用性、一项目流量存量总量人民银行征信数据库29 432 919279 908 013309 340 932金融机构上报数据33 246 324287 328 362320 574 686差 额3 813 4057 420 34911 233 754差额占比11.47%2.58%3.50%数据报送的全过程数据报送之前数据报送之中数据报送之后 数据标准应是适用、 数据传送应是有效、数据结果应是完整、一致的及时的准确的致性要求制定数据标准,导致数据总量出现较大偏差。首先,采集信息的主体从大型企业到中小企业,采 集信息的内容从银行信贷信息到质检、法院、环保、税 务等非银行信息,需要采集的信息似乎是越多越好,没 有充分考虑数据适用性原则。其次,在企业征信系统中存在着部分数据标准不一 致的情况。一是金融机构名称不一致。金融机构报送的 发生业务网点的名称与企业征信系统、立方体数据库(指 由cognos powerplay软件生成的数据包)中的名称不一 致。如广州地区共有20家外资注册银行,有6家银行的名 称同时存在于“外国银行分行”和“外资银行”的栏目 中;兴业银行广州分行报送12个网点发生了业务,只有9个网点名称能够相互对应,其他网点名称无法对应。 二是统计口径不一致。现有企业征信系统将金融机构现 代业务分为贷款、贸易融资、票据贴现、保理、承兑汇 票、保函、信用证等7类,但在实际操作中,商业银行将 信贷证明等有关业务统计为信贷业务,还有部分新增业 务品种不知道如何进行归类统计上报,如汇款项下海外 垫付、国际买方保理信用风险担保等。在某一时期,计算机管理系统软硬件的投入是固定 的。适当的数据量能使系统发挥最佳的工作效率,而数 据量的不断增加必然降低系统的工作效率,短期可能效 果不明显,长期积累的结果容易导致系统瘫痪。因此, 数据的适用性是一个不容忽视的问题。另外,数据的 一致性也决定了数据通道是否通畅,例如兴业银行广州 分行新增的两个网点没有在企业征信系统中作相应的增 加,那么这两个网点的数据无论多么准确、完整,进入 企业征信系统后都将是错误数据。2.对系统的工作原理了解不深企业征信系统本质上是一个计算机信息管理系统, 遵循一般管理系统的工作原理。现代管理理论中管理系 统有两个基本原理:一是系统原理,即现代管理所控制 的对象是一个整体的动态系统,不是一个个孤立分割的 部分,应该从整体着眼对待部分,使部分服从整体;二 是相对封闭原理,即在任何一个系统内,其管理手段必须构成一个连续封闭的回路,否则,管理大敞口就无法体现管理的效益(见图2)。图2 信息管理系统工作原理示意依据上述原理分析,企业征信系统目前尚未建立一个动态数据纠错反馈机制以形成管理的封闭回路。例 如,企业征信系统没有建立金融机构网点信息和贷款卡 信息一致性管理的有效机制。金融机构网点信息和贷款 卡信息是企业征信系统的基本信息,会随时间的推移不 断发生变化,当金融机构网点信息或贷款卡信息出现不 一致的情况时,企业征信系统应能自动发现并提交操作 人员进行处理,这样就不会出现贷款卡串户等现象。究 其原因,还是对系统的工作原理了解不深。事实上,覆盖全国的企业征信系统是由一个个不断 变化的动态部分组成的系统,系统产生错误数据是必然 的,且错误数据是动态变化的。为了纠正数据错误,在 系统开发的过程中应建立一个有效的纠错反馈机制,将 系统产生的错误数据作为反馈信息输入,不断地对系统 的处理过程进行修正,形成系统自身的制衡,以达到最 佳的工作效果。3.对历史遗留问题重视不够企业征信系统运行至今,一直没有对历史遗留的数 据问题开展统一的清理工作。我们可以从图1看出,数据 传送是否有效也决定了数据结果是否完整、准确,无论 是已经留存在企业征信系统中的历史遗留数据,还是因 为历史遗留问题无法上报的数据,都将直接影响数据结 果的完整性和准确性。因此,处理历史遗留问题就是解信息输入存储处理输出信息 信息反馈信息管理系统决数据有效性的问题,是提高数据质量不容忽视的。4.数据发生机构与数据质量检测机构之间管理链 过长目前,企业征信系统采用金融机构总行汇总各级 网点的数据后统一向总行征信中心报送的方式,有效降 低了设备成本、减少了中间环节、提高了报送效率。但 是,由于数据发生机构与上报机构分离,且存在多个中 间环节,导致金融机构内部对数据质量的责任不清。而 且,数据发生机构与数据质量检测机构之间间隔环节太 多,导致管理链过长。现阶段,人民银行各级分支机构 无法及时掌握数据错误的状况,无法有效开展监督、检 查工作,等到金融机构总行拿到错误数据再逐个环节查 找问题,这样困难较大而且效率低下。5.规范数据质量的制度缺失企业征信系统已经正式运行两年多,但至今没有相 应的管理办法,人民银行仅参照银行信贷登记咨询系 统管理暂行办法进行管理,这严重制约了对数据质量 的管理和提高:异议处理机制不完善,企业异议申请得 不到有效解决;贷款卡是否需要进行有效期延续或继续 年审缺乏依据(系统中也没有相应功能);对金融机构 的现场检查及处罚缺乏有效的制度依据。个系统运行中始终保持一致。(3)建立数据纠错的制衡机制。企业征信系统数据质 量管理面临的两个主要挑战是金融机构和企业自身业务 的复杂性及身份信息不断变化。这两个客观原因的存在 意味着企业征信系统的数据质量保障行动永远没有结束 之日。因此,应建立一个由计算机软件和相关制度组成 的,可重复数据收集、数据纠错的制衡机制,对不断产 生的错误数据进行不断的修正。(4)将数据质量检测机构前移。将数据质量检测机构 前移,就能有效地解决数据发生机构与数据质量检测机 构之间管理链过长的问题。一是开发简单、直观的数据 纠错辅助工具软件。人民银行各级分支机构可以通过该 软件掌握本地金融机构数据的报送状况和质量指标。二 是建立一整套数据核对、纠错、考核的管理制度,明确 企业征信系统数据报送的时间、统计的口径以及报送的 通道,由人民银行各级分支机构对金融机构在时间、口 径和通道上进行规范化管理。(5)清理历史遗留的问题。组织有关金融机构对历史 遗留问题开展深入、细致的调研工作。按照不同的情况 将这些问题进行分类,并制定不同的处理办法。选择适 当的时机,全面开展对历史遗留问题数据的清理工作,务求将历史遗留问题清理干净,为提高企业征信系统数四、对进一步提高数据质量工作的建议据质量打下坚实的基础。为了使企业征信系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论