版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章数据与数据的价值CATALOGUE目录02无处不在的数据01课前导读03数据的价值04警惕“数据至上主义”01PART课前导读数据使能的经济新业态当数据“包围”生活时,会发生什么?为什么你每天刷手机、点外卖、打车、甚至走路,都在“生产钱”?01数据使能的经济新业态答案1:数据=新型“石油”“数据被政府列为‘第五大生产要素’,像石油一样驱动经济”01石油驱动工业时代,数据驱动数字时代。2023年国家数据局成立,专门“开采”数据资源,2024年数字经济核心产业已占GDP的10%(提前完成“十四五”目标)。数据使能的经济新业态答案2是:数据=个性化服务的“钥匙”“你的每一次点击,都在反向塑造为你定制的世界”01银行用交易数据评估信用,3秒放贷;医院用基因数据定制抗癌药;城市用交通流量数据动态调整红绿灯。你检索“运动鞋”就会向你推荐“运动耳机”支付宝蚂蚁保就会向你推荐“运动意外险”数据使能的经济新业态答案3:数据=催生新业态的“催化剂”“数据不是‘副产品’,而是新商业模式的‘起点’”012024年,全国数据市场交易规模预计超1600亿元,同比增长30%以上,其中场内市场数据交易(含备案交易)规模预计超300亿元,同比实现翻番。。新业态:2025年,字节跳动给AI训练岗开出了月薪2万~4万元、15薪。衍生出“数据标注师”本章要点主要介绍数据爆发的原因、数据的模态与类型、非结构化数据的结构化过程,重点介绍了数据爆发的原因、数据的类型、数据标注及非结构化数据的结构化方式。辨析了数据金字塔、数据价值、数据价值的演进及商业价值的实现方式,讨论了数据局限性、伦理问题及隐私保护,以期帮助读者全面理解数据、数据价值及其重要性、局限性。0102主要内容理解数据的本质及其对企业的价值,能够解释从数据获取价值的过程;理解数据商业价值的实现方式,能够解释特定案例中数据的具体价值;掌握常见的数据标注方法,能够根据项目需求设计标注方案,将非结构化数据转化为结构化数据;能够识别和解释数据利用相关的伦理问题,熟悉相关法律法规及隐私保护的原则与方法。学习目标本章要点0403数据的形态。数据价值与数据金字塔。数据商业价值的具体体现。数据的局限性、伦理问题与隐私保护。本章重点本章难点在于数据标注与类型转化,这涉及到如何将非结构化数据通过标注转化为结构化数据,以及理解不同数据类型之间的转化方法和应用场景。本章难点02PART无处不在的数据数据爆发的原因互联网普及与社交媒体兴起,如Facebook、X(原Twitter)、微信、微博等,不仅连接全球,更推动数据爆炸,重塑数据生态与社交格局。互联网的普及和社交媒体的兴起01科学研究,特别是实验数据,在粒子物理、生物医学、天文学和地球科学等领域爆炸式增长,推动科研进步,带来发展新机遇。
科学研究与实验数据的爆炸性增长02电子商务平台和企业内部的ERP系统成为数据重要来源;CRM系统则聚焦客户数据收集分析,助力企业精准营销与优化服务。企业与商业活动的数字化03数据爆发的原因政府作为最大的数据拥有主体,在推动数据透明度和利用效率方面发挥着关键作用。近年来,随着数字化转型的加速,政府数据开放在全球范围内愈发显著。各国纷纷推出相关政策和平台,以促进数据共享、增强公共服务质量和激发社会创新。政府数据开放04数据的爆炸式增长,与存储技术的不断革新密不可分。回顾存储技术的发展历程,从早期的磁带、软盘,到后来的硬盘驱动器、固态硬盘,再到现如今的各类云存储服务,存储技术的每一次革新,都带来了存储容量的显著提升、存储速度的极大加快和存储成本的大大降低。存储成本的降低05处理器技术的不断进步,使得CPU的核心数不断增加,主频也在稳步提高,显著提升了计算机的处理能力与速度。图形处理单元(GPU)最初被设计用于加速计算机图形输出,在高性能计算中的作用随着时间的推移变得日益重要。数据处理能力的提升06按照特定格式组织,具有明确字段和数据类型,便于存储在关系型数据库中进行分析查询,如ERP、CRM等系统中的数据。结构化数据未特定格式组织,无预定义字段和数据类型;如文本、图像、音频、视频等;包含大量信息,需复杂处理方法提取价值。非结构化数据不符合关系数据库严格表格模型,但包含组织形式的数据;如JSON和XML文件,通过键值对或标签树形结构组织数据。半结构化数据数据的模态与类型01.数据类型数据的模态与类型02.数据类型转换非结构化数据的不规则性和模糊性,不仅会使得传统程序难以理解,还不利于数据模型构建与数据价值释放。将非结构化数据转换为结构化数据,是数据分析和建模的基础性工作。最重要的数据转换方式之一是数据标注。以图片格式的数据为例,数据标注是把需要计算机识别和分辨的图片事先打上标签,然后让计算机模仿人类学习过程中的经验学习,不断地识别图片的特征并与标签对应,最终实现计算机自主识别图片的过程。人脸识别属于数据标注的典型应用场景之一数据的模态与类型02.数据类型转换常见的数据标注有三种划分方式。按照标注对象分类,可以分为图像标注、语音标注和文本标注。按照标注的构成形式分类,可以分为结构化标注、非结构化标注和半结构化标注。按照标注者的身份分类,可以分为人工标注和机器标注。图像标注:路上违章抓拍标注语音标注:导航软件的合成语音文本标注:医学应用领域当中的应用数据的模态与类型02.数据类型转换区域标注与标框标注类似。但与标框标注相比,区域标注的要求更加精确,而且边缘可以是柔性的。区域标注描点标注是指将需要标注的元素(如,人脸、肢体等)按照需求位置进行点位标识,从而实现对特定部位的关键点识别。描点标注标框标注是从图像中选出要检测的对象,此方法仅适用于图像标注。标框标注还有很多个性化的数据标注任务。其他标注分类标注是从给定的标签集中选择合适的标签分配给被标注的对象。分类标注按任务目标,常见的数据标注任务对行人进行标框标注03PART数据的价值数据金字塔数据就像金矿,蕴藏着巨大的价值。但要将这些价值挖掘出来,需要经过一系列的加工和提炼。数据金字塔案例:利用数据金字塔总结复盘,成为一名小红书博主。数据价值的演进数据分析帮助企业解决现存的问题,还能激发新的创新思路;通过深入挖掘,企业可以发现新的市场机会,开发出颠覆性的产品和服务。从洞察到创新05基于对未来的预测,人们可以做出更加明智的决策;数据分析能够帮助企业了解过去,更能为企业未来发展或业务运营提供建议,从而进行提前决策与规划等。从预测到决策03随大数据技术兴起,人们可处理海量数据,运用机器学习算法挖掘模式,预测趋势;如,电商平台通过分析用户的浏览和购买历史,可以预测用户的潜在需求。从分析到预测02在计算机技术普及之前,数据以纸质或其他传统方式存储,其主要作用是记录历史事件;随计算机技术发展,数据得以数字化存储,能够进行简单的统计分析。从记录到分析01数据驱动的决策不仅停留在预测层面,更重要的是将预测结果转化为实际行动;企业可以将数据分析的结果与业务目标相结合,制定出切实可行的行动方案。从决策到行动04数据商业价值的实现方式1.数据的商业价值在海量用户数据的支撑下,企业可以对市场开展更深入的洞察。通过对这些数据进行深度分析,企业能够精准地描绘出目标客户的画像。基于此,企业可以量身定制营销策略,将产品和服务以最恰当的方式呈现给目标客户,从而极大地提高销售转化率。01数据能够提升企业收入数据商业价值的实现方式1.数据的商业价值海量数据分析助力企业优化生产流程,提升效率,降低生产成本;福特汽车、京东通过工业物联网、智能补货系统实现生产优化,降低成本,提升竞争力。02降低运营成本京东的物流大数据管理平台数据商业价值的实现方式1.数据的商业价值市场数据分析助力企业规避风险,微众银行、中联重科通过数据驱动的风险管理,实现精准风控和提前预警,确保业务稳健发展,提升客户满意度。03规避风险案例:小米智能风控(1)数据产品将数据加工成具有商业价值的产品,是数据时代企业实现商业转型的关键。通过将原始数据转化为可理解、可操作的分析报告、模型、可视化产品等。(2)数据服务数据服务指的是通过专业的技术和方法,为客户提供数据分析、数据咨询等服务,帮助客户从海量数据中提取有价值的信息,通过项目制、订阅制及平台服务等方式,为企业创造新的收入来源。数据商业价值的实现方式2.数据货币化的路径数据产品案例:市场调研报告数据服务案例:高校订阅数据库(3)数据交易数据交易是指将原始数据、加工数据或数据产品作为一种商品,在市场上进行买卖的行为。随着数据成为新的生产要素,数据交易市场日益活跃。(4)数据增值数据增值是指通过将原始数据与其他数据、知识或技术相结合,创造出新的、更有价值的数据产品或服务的过程。数据增值的途径包含数据融合、数据关联、数据分析、数据可视化及机器学习等。数据商业价值的实现方式2.数据货币化的路径04PART警惕“数据至上主义”真实性数据是现实世界的反映,但并非现实世界的全部,在收集和处理过程中可能存在偏差,影响数据真实性,需关注数据质量以确保决策准确。不完整、不准确、不一致等是常见的数据质量问题;低质量的数据会导致错误决策,危及患者健康,影响企业利益,需确保数据质量以保障决策准确。信息过载是大数据时代一个普遍且严峻的问题,数据过多可能干扰判断,需利用数据清洗等技术提升信息处理能力,确保工作效率与决策质量。数据价值会随着时间的推移而衰减,企业需要建立一套完善的数据更新机制,确保数据的时效性,以保障决策的正确性和有效性。数据的准确性信息过载数据的时效性数据的局限性01020304数据利用的伦理问题数字鸿沟问题数据的获取和利用存在着不平等,可能会造成数字鸿沟问题,加剧社会不平等,影响弱势群体发展机会及社会整体进步。算法歧视问题算法歧视是大数据和AI发展带来的问题,可能基于多种因素加剧社会不公平,影响求职者机会,损害社会公正与公平。案例:亚马逊AI招聘工具性别歧视案背景:
亚马逊曾开发了一款用于自动化简历筛选和初步面试评分的AI系统。然而,该系统在投入使用后被发现对女性求职者存在显著的歧视。原因:
该系统的训练数据主要来源于过去几年的招聘记录,而亚马逊过去的员工队伍中男性占比较高。因此,系统在学习过程中强化了这种性别不平衡,导致对女性求职者的评分普遍较低。结果:
尽管亚马逊试图通过调整算法来消除这种歧视,但最终还是决定放弃该项目,因为无法完全保证其公平性。数据利用的伦理问题数据滥用现象日益严重数据滥用现象严重,如“大数据杀熟”和Facebook-CambridgeAnalytica数据泄露事件,严重侵犯了用户个人隐私与正当权益。Facebook数据泄露事件数据利用的伦理问题网络“公众人物”操纵数据与流量网络“水军”和“大V摆拍”现象泛滥,操控公众舆论,影响信息真实,严重威胁社会秩序,造成恶劣社会影响。数据存储的安全威胁数据存储还面临着黑客攻击、数据泄露等安全威胁,一旦数据泄露将造成巨大经济损失和负面社会影响。数据质量管理清洗无效数据,建立统一标准,验证数据完整性和可靠性,确保数据质量,提高数据分析的准确性。个人隐私保护在收集个人信息时,坚持明示告知原则,最小化收集,确保用户同意,保障数据主体权利,维护个人隐私。数据安全防护严格控制数据访问权限,加密敏感数据,定期备份,建立入侵检测系统,确保数据安全,防止未授权访问。数据隐私与安全保护建立数据共享机制,脱敏处理数据,确保公平共享,避免算法歧视,促进数据资源的有效利用。数据公平与共享我国已出台多项法规规范数据处理,如《中华人民共和国数据安全法》自2021年9月1日起正式施行,保障数据安全,促进数据开发利用,标志数据安全法规体系不断完善。2025年1月1日起施行的《网络数据安全管理条例》,进一步细化了相关规定,完善了网络数据安全规则,为提升网络
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年惠州卫生职业技术学院单招职业倾向性考试题库及答案详解一套
- 银行高层面试题目及答案
- 2025年宁波农商发展集团有限公司招聘备考题库及完整答案详解一套
- 2025年重庆教师招聘50人备考题库及一套参考答案详解
- 2025年正在报名中备考题库贵阳市第六医院康复医师招聘备考题库参考答案详解
- 富阎高新初级中学教师招聘(2026年应届毕业生)备考题库及1套完整答案详解
- 山西崇安能源发展有限公司2026年招聘备考题库及参考答案详解一套
- 2025年劳动仲裁管理岗重点试题及答案
- 2025年铜仁市铜雅高级中学骨干教师招聘备考题库及答案详解1套
- 2025年海北州第二人民医院面向社会公开招聘不占编制事业单位工作人员备考题库及完整答案详解1套
- 电大本科【中国现代文学专题】2025年期末试题及答案试卷代号
- 挂车维修面合同范本
- 《光伏电站运行与维护》课件-教学课件:两票三制管理制度
- 晕针的护理及防护
- 投资资金返还协议书
- 镇长2025年法治建设、法治政府建设述法报告
- 公路工程试验检测实施细则22
- 基于JavaWeb医院住院信息管理系统的设计与实现-论文13000字
- 阿司匹林肠溶片
- 小萝卜头的自白课件
- 2024包头轻工职业技术学院工作人员招聘考试试题及答案
评论
0/150
提交评论