【《建设工程电子招投标大数据预处理分析》5900字】_第1页
【《建设工程电子招投标大数据预处理分析》5900字】_第2页
【《建设工程电子招投标大数据预处理分析》5900字】_第3页
【《建设工程电子招投标大数据预处理分析》5900字】_第4页
【《建设工程电子招投标大数据预处理分析》5900字】_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[69]。数据集成过程需重点关注以下几个问题。(1)实体识别,即如何将识别并匹配处于不同数据源中的同一参与主体。例如,当需要确定某一数据源中的“TENDEREEID”与另一数据源中的“TENDE-REENUMBER”是否描述的是同一实体,此时通常借助数据库中的名称、数据类型、属性取值范围等数据进行识别与判定。(2)多种类型数据的整合。电子招投标数据包括结构化、非结构化和半结构化数据,电子招投标活动中的结构化数据相对较多,主要是各类以二维表格形式记录的招投标项目及参与主体的基本信息、活动业务信息等;非结构化电子招投标数据包括工程合同、照片和视频、会议记录等数据结构不规则或不完整及无预定义数据模型的数据;半结构化的电子招投标数据包括系统即时消息、时间数据等。(3)数据冲突的检测与处理。由于比例或编码等不同,同一参与主体在不同数据源中,其某一属性数值可能存在差异。例如,同一材料的报价在不同系统中采用不同的货币类型度量。1.1.3数据变换数据变换是通过压缩数据描述维度和统一数据衡量尺度,消除其在时间、精度等方面的差异,提高数据分析的效率。同一个数据对象在不同的数据源中可能采用不同的衡量尺度或存在多种描述方法,但在多个数据源的数据整合过程中一个数据属性只能有一种衡量尺度或描述方法,否则将导致数据混乱,影响数据分析的准确性和全面性。常见数据变换策略如表3-9所示。表3-9常见数据变换策略及举例Table3-9CommonDataTransformationStrategiesandExamples常见策略作用举例平滑去噪,离散化,增加粒度分箱、聚类、回归聚集汇总统计合计行业月度中标金额属性构造构造并添加新的属性或特征由总价和面积构造建筑单方价格规范化将有关数据按比例缩放并投射到特定的小区间内将工资收入属性映射至区间[-1.0,1.0]上离散化用区间或概念标签替换属性原始数值用区间标签(20~30,30~40等)替换年龄属性原始值泛化处理以高层次概念取代低层次的数据对象街道属性可泛化到城市、国家等更高的概念层1.1.4数据归约数据归约是指在保证数据完整性的前提下精简数据量,缩小原始数据集体量,减少数据存储内存和处理时间,以留用更多空间与时间使用占用资源更大的数据挖掘算法,提高数据分析处理结果的精确度。例如在招标公告的数据统计分析中,可以先行删除原始数据中关于招标代理机构的联系方式、地址等无关属性的数据值。常见数据归约策略如下表3-10所示。表3-10常见数据归约策略及方法Table3-10CommonDataProtocolStrategiesandMethods常见策略途径常用方法维归约减少随机变量或属性的个数属性子集选择、主成分分析等数量归约用较小的数据表示形式替换原始数据模型估计数据、直方图等数据压缩使用变换得到原始数据的归约或压缩表示压缩以上四个常

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论