版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DB13文化旅游大数据建设第2部分:数据预处理河北省市场监督管理局发布I 2规范性引用文件 3术语和定义 4基本要求 5预处理结果要求 附录A(资料性)数据预处理方法 参考文献 DB13/T××××-2025《文化旅游大数据建设》分为以下4个部分:——第1部分:数据采集——第2部分:数据预处理;——第3部分:数据存储与管理;——第4部分:数据分析与可视化。本部分为DB/T××××—2025《文化旅游大数据建设》的第2部分。本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起本文件由河北省文化和旅游厅提出并归口。本文件起草单位:河北民族师范学院本文件主要起草人:杨宏、周长会、纪佳琪、李建峰、姜立新、林雪梅、房健、金疆、黄大伟、张海鹏、鞠安琪本文件于2025年*月首次发布。1文化旅游大数据建设第2部分:数据预处理本文件规定了文化旅游大数据建设中数据预处理的术语和定义、基本要求、预处理结果要求。本文件适用于文化旅游大数据的预处理过程。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T35295-2017信息技术大数据术语GB/T35589-2017信息技术大数据技术参考模型GB/T36344-2018《信息技术数据质量评价指标》GB/T38548.3-2020内容资源数字化加工第3部分:加工规格3术语和定义下列术语和定义适用于本文件。3.1数据信息的可再解释的形式化表示,以适用于通信、解释或处理。[来源:GB/T35295-2017,2.2.1]3.2脏数据脏数据是指对实际业务无意义、格式非法、编码不规范、业务逻辑不清晰的数据,主要包括残缺数据、噪声数据、不一致数据、重复数据。3.3数据预处理包括数据验证、清洗、标准化、格式化和存储。[来源:GB/T35589-20177.3.3]3.4数据质量2在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。[来源:GB/T36344-20182.3]3.5数据集具有一定主题,可以标识并可以被计算机处理的数据集合。[来源:GB/T36344-20182.6]4要求4.1基本要求预处理是在采集到多个维度、多个来源、多种结构的数据之后,按照文化旅游大数据建设的数据标准要求,进行审查校验、数据清洗、错误修复、格式规范化。4.2数据审查和校验4.2.1完整性数据信息是否存在缺失的状况;4.2.2准确性数据记录的信息是否存在异常或错误;4.2.3一致性数据是否遵循了统一的规范,数据集合是否保持了统一的格式;4.2.4简洁性是否具有核心的本质属性,是否存有冗余;4.2.5适用性数据的质量能否满足入库的需要。4.3数据清洗采集到的文化旅游数据,必须清洗去除“脏数据”,保证数据格式和内容的准确性和一致性。4.3.1缺失值处理要求a)根据业务规则,使用算法工具检测数据集,对缺失的数据进行统计和识别;b)过滤或删除无用途的缺失值;c)利用插值法、均值法、中位数法等计算结果,填充并补全业务需要数据的缺失值。4.3.2重复值处理要求3a)根据业务规则,使用算法工具检测数据集,识别重复数据;b)存在完全相同的重复数据时,直接删除多余的重复项,仅保留一条记录;c)重复数据中包含不同的信息时,根据数据统一性约束要求,合并成一条数据。4.3.3异常值处理要求a)通过统计方法或聚类方法等学习模型检测并识别数据的异常值,如超出预定范围的数值、逻辑错误的数据等;b)异常值为非关键数据时,直接删除,删除前备份;c)异常值为关键重要数据时,根据业务规则采用固定值、均值、中位数、众数等方法进行修正替换;d)无法修正的关键重要数据,对异常值进行明确标记。4.4数据错误修复要求4.4.1数据补缺对空数据、缺失数据可采用插值法、均值进行填充、补缺,无法处理的做标记;4.4.2数据替换对无效评论、重复数据或异常值等无效数据进行删除或替换;4.4.3主键约束通过建立主键约束,对非法数据进行数据替换或重新处理.4.5数据格式规范化要求a)通过预设的规则对采集的数据集进行扫描,判断数据格式,识别出格式不一致的数据;b)利用文化旅游大数据的业务逻辑,对不符合格式要求的数据进行转换和替换;c)对非结构化文化旅游资源进行数字化加工的规范格式与要求:文本的数字化加工格式与要求应符合GB/T38548.3-2020第4章的要求;图片的数字化加工格式与要求应符合GB/T38548.3-2020第5章的要求;公式/表格的数字化加工格式与要求应符合GB/T38548.3-2020第6章的要求;音频的数字化加工格式与要求应符合GB/T38548.3-2020第7章的要求;视频的数字化加工格式与要求应符合GB/T38548.3-2020第8章的要求。4.6数据预处理方法本标准规定的数据预处理方法见附录A。5预处理结果要求5.1规范性4数据标准、数据模型、业务规则、安全规范应统一。5.2完整性数据集合中的数据元素、数据记录应符合文化旅游大数据的业务要求,包含足够的数据响应各种查询和计算。5.3准确性数据内容、数据格式、数据唯一性的表述、表达应准确。5.4一致性相同数据的一致性应符合以下要求:a)同一个数据在同一时刻在不同数据库、应用和系统中应只有一个值;b)数据字段内数据应与字段描述一致。5(资料性)数据预处理方法A.1缺失值处理方法A.1.1缺失值识别方法主要包括:a)根据业务规则,使用编程语言的库函数或数据库处理工具扫描数据集并标识缺失值;b)利用统计工具及可视化方法(如箱线图、散点图)对数据集的缺失数据进行统计和识别。A.1.2缺失值的补全方法主要包括:a)均值/中位数/众数填充:根据数据分布特性,选择合适的统计量填充缺失值;b)固定值填充:在某些特定场景使用特定值(如0、-1等)填充缺失值;c)向前/向后填充:使用前一个/后一个非缺失值填充缺失值;d)插值法:根据已知数据点,通过插值算法估算缺失值;e)K近邻填充:根据数据点的相似性,使用K个最近邻的数据点填充缺失值;f)模型预测填充:建立预测模型,根据其他字段的值预测缺失值。A.2重复值处理方法A.2.1重复值识别方法主要包括:a)通过编程语言库函数或数据库处理工具,比较数据集的所有字段或选定的关键字段,识别出重复数据;b)利用统计工具计算每列(或每行)的重复数据的数量或比例,通过模糊匹配技术处理拼写错误或缩写等导致的重复。A.2.2重复值处理方法主要包括:a)数据集存在完全相同的记录时,直接删除多余的重复项,仅保留一条记录;b)重复数据中包含不同的信息,根据业务规则和数据统一性约束,将信息合并成一条记录。A.3异常值处理方法A.3.1异常值的识别方法主要包括:a)标准差法:假设数据服从正态分布,将位于平均值附近几个标准差之外的数据点视为异常值;b)箱线图法:通常将位于1.5倍或3倍四分位距(IQR)之外的数据点定义为异常值;c)百分位数法:选择将超过某个上/下分位数阈值的数据点视为异常值;d)密度估计法:利用概率密度函数估计数据分布,判断概率密度较低的数据点为异常值;e)拉依达准则(3σ准则):根据数据点与均值的偏差是否超过3倍标准差来判断异常值;f)聚类方法:将数据聚类,然后识别在聚类中心周围相对孤立的数据点作为异常值;g)回归分析:使用回归模型预测数据点,并将预测误差较大的数据点视为异常值。A.3.2异常值处理方法主要包括:a)异常值为非关键重要信息时,直接删除,删除前备份;b)异常值为关键重要信息时,根据业务规则采用固定值、均值、中位数、众数等方法进行修正处6理,无法修正的,对异常值进行明确标记。A.4数据格式处理方法A.4.1数据格式识别方法主要包括:a)利用编程语言库函数或数据库处理工具,将数据与元数据进行对比,识别出格式不一致的数据;b)通过预设的数据验证规则,如数据类型、数据单位和数据值范围等,利用规则引擎对数据集进行扫描,判断记录是否符合预设规则。A.4.2数据格式处理方法主要包括:a)日期时间格式处理:将包含日期和时间的数据转换为统一的日期时间格式,如将字符串类型的日期时间转换为时间戳,或将时间戳转换为指定格式的日期字符串;b)字符串处理:对数据中的字符串进行清理和处理,去除多余空格、删除特殊字符、转换大小写等;c)数值类型转换:将数值型数据从字符串或其他格式转换为数值类型,以便进行数值计算和分析;d)数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东珠荣工程设计有限公司春季招聘农业笔试备考题库及答案解析
- 成都市青羊区天府幼儿园编外教师招聘(13人)农业笔试备考试题及答案解析
- 国新证券股份有限公司2026届春季校园招聘农业笔试参考题库及答案解析
- 2026中国邮政集团有限公司宁夏分公司春季校园招聘农业笔试参考题库及答案解析
- 2026春季中国铝业集团有限公司招聘(第二批)农业笔试备考试题及答案解析
- 2026广东惠州市惠城区国有资产监督管理局所属一级企业副总经理招聘2人农业考试备考试题及答案解析
- 2026黑龙江哈尔滨锅炉厂有限责任公司春季校园招聘农业笔试备考试题及答案解析
- 2026年福建省宁德市寿宁县教育局教师招聘5人农业笔试备考试题及答案解析
- 2026渭南合阳县政务服务中心公益性岗位招聘农业笔试备考题库及答案解析
- 2026广西贵港桂平市木圭镇卫生院招聘编外工作人员4人农业考试参考题库及答案解析
- 2023年机动车检测站管理评审资料
- 加工中心编程精解
- 新生儿喂养不耐受-新生儿喂养不耐受诊断标准教学课件
- 驾驶员从业资格证电子版
- 《云南省田坝煤矿二号井采矿权出让收益评估报告》
- 毕业论文-基于三维视觉的工件测量技术研究
- GB/T 37047-2022基于雷电定位系统(LLS)的地闪密度总则
- GB/T 20303.1-2006起重机司机室第1部分:总则
- GB/T 12130-2005医用空气加压氧舱
- GB/T 11547-2008塑料耐液体化学试剂性能的测定
- GB/T 10066.1-2019电热和电磁处理装置的试验方法第1部分:通用部分
评论
0/150
提交评论