版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章数据工程初步
课程内容
概述
数据工程
大数据
*拓展
数据再认识1.经验就是数据数据是对客观事件进行记录并可以鉴别的符号,用来记载客观事物的性质、状态及相互关系。数据,狭义上指数字,广义上还包括具有一定意义的文字、字母、数学符号、图形、图像、视频、音频等。数据经过加工后就成为有价值的信息。所有数据都是可以输入计算机并被程序化处理的。如果将“数据”概念置于传统认识论的理论框架中,可以发现数据正处于感性认识与理性认识之间。在没有计算机的年代,并不是没有数据,很多数据通常以隐形的形式存在,人们通常所说的“经验”,其实就是数据模型。对于普通人,不可能也不一定具有能力去用物理方式记录所有感知的数据,只是自然的通过大脑或肌肉“记录”,这就形成了经验。2.数据是感性向理性飞跃的关键经验可以说是人类从感性认识飞跃到理性认识的关键。在感性认识与理性认识关系方面,哲学教科书上传统的标准论述早已为人们所熟知。感性认识包括:感觉、知觉和表象;理性认识包括:概念、判断和推理。从感性认识飞跃到理性认识,要运用抽象、概括、归纳、演绎、分析、综合等思维方法。可是,“经验”在感性认识向理性认识飞跃的过程中起什么作用?这个问题以往似乎并没有得到足够关注,概念也较为模糊。为什么彻悟的都是老者?因为你的数据还不够3.关于数据主观与客观性的争论以往哲学界经常争论“‘经验’是主观的还是客观的?”这一问题。经验论哲学家中既可能有唯物主义者,也可能有唯心主义者,其原因就在于作为数据模型的“经验”范畴从源头来看是源自物质世界,但其建构方式又是主体在起决定性作用。数据模型所表述和测量的对象都来自客观世界,数据的测量标准、表达方式、传播途径都是客观的,是有物质基础的。然而数据的获得、数据模型的建构方式以及对数据的挖掘和处理,都离不开主体的能动作用,其认知结果都带有主体的印记,因此从这个意义上来说又是主观的。
数据的力量为什么数据如此重要呢?世界上最聪明的人是借用别人撞的头破血流的经验作为自己的经验,世界上最愚蠢的人是非用自己撞得头破血流的经验才叫经验。——泰戈尔人类社会之所以发展的越来越高级文明,离不开学习知识,而知识的传播流传越快,则社会发展也越快,在封建社会以前,知识的传播从口口相传到甲骨文,再到竹简记录,就算是封建社会后期的纸质记录,其知识的传播速度也无法和今天的互联网知识的传播速度相提并论。一般来说,知识的获取来自两种途径,一种是通过他人的经验而获得的知识,也就是他人将知识整理成册,然后供大家学习,这也是目前的主流学习方式;另一种就是通过自己的探索而获得的知识,这种学习方式目前只存在高精尖领域的知识学习,由于在已有的开放社会资源中,找不到可以学习的知识,只有自我探索获取。无论哪种学习方式,都要是通过学习载体来传播知识。无论是面对面讲述,实践操作,还是书本记录,或是电子刊物,亦或者影像资料等,这些都是学习载体,都可以称其为数据,而学习数据的质量从根本上影响了学习的效果。人类相比目前的人工智能而言,是具有推理能力的,在学习某些具有关联性知识的时候,通过推理联想可以获得更多的知识。从另一角度来讲,在某种特定场景下,即使数据不够完整全面,对于人类的学习影响也不会太大,这是因为人类会利用推理和想象来完成缺失的知识。【举例】顺序与阅读汉字顺序对阅读的影响是一个有趣的心理学和语言学问题。有研究表明,汉字的顺序并不一定会影响阅读。这是因为人脑在阅读时会自动进行排序和识别,根据上下文和语义激活正确的词。但这种现象并不是中文特有的,其他语言也有类似的情况。汉字顺序对阅读的影响取决于多种因素,如调换的范围、频率、位置等。一般来说,如果调换的汉字在一个词或一个短语内,并且不改变整体意思,那么对阅读影响较小;如果调换的汉字跨越了较大的距离,并且导致语义混乱或歧义,那么对阅读影响较大。1.认识世界源于数据人对世界的探索要借助于数据,正所谓实践出真知。正如前面举例提到的,卖油翁的肌肉与手眼的惊人协调能力源自于反复不断的练习(数据),老马识途在于脑中存储的路径数据,可以说,世界规律就是蕴含于纷繁复杂的数据(经验)中的。对于数据的研究首当其冲的就是统计学,而统计学者也自认为,其工作的乐趣就是用数据认识这个世界。现如今,利用数据进行行业研究的思想已经从统计学延伸到各行各业,从工业界到学术界,社会科学、生态科学、健康、经济乃至天文学等等,都在倡导大数据、数据分析、数据挖掘,从而期望借助数据挖掘更多的真相,带来更多价值。2.新时代数据带来新科学人工智能时代,数据带来新科学。华人女科学家李飞飞博士推动的ImageNet项目(如图9-2)很大程度上改变了人们对数据的认识,“ImageNet改变了人们的思维模式:虽然很多人仍然关心模型,但也很关注数据。”在2006年,刚刚出任伊利诺伊大学香槟分校计算机教授的李飞飞发现,整个学术圈和人工智能行业都在苦心研究同一个概念:通过更好的算法来制定决策,但却并不关心数据。大规模视觉图像识别赛的数据库ImageNet“改变AI和世界的数据”——李飞飞3.数据是第五生产要素在工业化时代,四大核心要素分别是土地、劳动力、资本、技术。进入数字经济时代,数据要素成为了第五要素。数据作为生产要素分配,已经上升到国家的战略高度。数据和社会经济中的每一个个体息息相关,掌握了数据就掌握了经济社会发展的命脉,在全社会利益分配中将占得先机,因此也有人把数据称为信息时代的“新石油”。2020年2月14日,中央全面深化改革委员会第十二次会议审议通过的《关于新时代加快完善社会主义市场经济体制的意见》指出:“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”,从政策层面明确了数据的生产要素地位。数据的分类1.数值型数据数值型数据是最常见和基础的数据形式。它以数字的形式表达,可以进行各种数学运算和统计分析。数值型数据可以分为两种类型:离散型和连续型。离散型数据是一种具有可数性质的数据,例如:整数型数据。它通常用于计数和分类,例如:人口统计数据、学生人数等。离散型数据只能取有限个数的值,例如:1、2、3等。连续型数据则是一种具有无限可数性质的数据,例如:实数型数据。它通常用于测量和度量,比如温度、距离等。连续型数据可以取任意值,可以是小数或分数。2.文本型数据文本型数据是用于存储和表示文本信息的数据形式。它通常以字符的形式表达,可以包含字母、数字、符号和空格等。文本型数据用于记录和传输大量的文字信息,例如:文章、新闻、邮件等。文本型数据可以通过各种文本处理技术进行分析和处理。例如:可以使用自然语言处理技术提取关键词、分析情感倾向等。文本型数据也可以进行文本挖掘,发现其中隐藏的规律和模式。3.图像型数据图像型数据是以图像的形式表达的数据,它是由像素点组成的二维矩阵。图像型数据可以呈现出丰富的视觉信息,例如:照片、图表、地图等。图像型数据可以通过图像处理技术进行分析和处理。例如,可以使用图像识别技术识别物体、人脸等。图像型数据也可以进行图像压缩,减少数据的存储空间和传输带宽。5.其它在上述类型的基础上,在很多领域中还存在着一些形式、结构更加复杂的,高纬度数据,例如:地理数据、雷达数据、网络流量、气象数据、天文数据,等等,这些复杂的数据不仅包含上述多种基本类型,而且存在很多维度,各个维度所表现出来的数据特征、特点差异极大。
课程内容
概述
数据工程
大数据
*拓展
1.定义数据工程是一个涉及数据采集、处理、存储、分析和报告等工作的综合性学科。它主要关注的是如何有效地处理和利用数据,以支持主体的目标和战略。数据工程是一个涵盖了多个领域的综合性学科,它旨在将原始数据转化为有价值的见解和知识,以支持达成数据利用的战略目标。数据工程的概念吴恩达2.发展史数据工程作为一个独立的领域,其形成历史可以追溯到20世纪90年代。当时,随着数据库技术的成熟和数据挖掘理论的提出,人们开始意识到数据的重要性和价值。在这一时期,数据库系统广泛应用于企业、政府和学术界,大量的数据被收集和存储。然而,如何有效地处理、分析和利用这些数据成为一个亟待解决的问题。随着数据量的不断增加,传统的数据处理方法已经无法满足需求。人们需要更高效、更自动化的方法来处理和分析大规模的数据。因此,数据工程应运而生。数据工程师是当今数字时代中至关重要的角色之一。他们构建和维护数据基础设施,将海量数据转化为有价值的信息,为组织的决策和业务优化提供关键支持。数据工程师具备扎实的编程和数据处理技能,解决复杂问题和优化数据流程。他们的工作对于实现数据驱动的成功至关重要,为数据科学家、分析师和业务团队提供可靠的数据基础。数据工程的意义1.推动业务创新2.增强决策能力3.优化资源配置4.提升满意度5.保护企业利益数据工程的内容处理的数据分为结构化、非结构化和半结构化数据。Deepplayground滤波器可视化效果图
课程内容
概述
数据工程
大数据
*拓展
大数据的概念1.定义大数据(BigData)是由数量巨大、结构复杂、类型众多的数据结构的数据集合,在合理时间内,通过对该该数据集合的管理、处理、并整理成为能帮助政府机构和企业进行管理、决策的讯息。2.发展史大数据概念的发展历程可以追溯到19世纪,当时数据的规模和复杂性相对较低,数据处理和分析的方式也相对简单。随着科技的发展,数据的规模和复杂性不断增加,数据处理和分析的方式也变得越来越复杂。3.大数据与智能技术的关系大数据与智能科学与技术的关系是紧密相连的。大数据与智能之间存在密切的关系。大数据是智能的基础,智能是大数据的应用。大数据可以帮助我们处理和分析海量的数据,从中提取有价值的信息和洞见,而这些信息和洞见又可以被用来训练和优化人工智能模型。智能技术如:机器学习和深度学习等,可以通过对大量数据的分析和处理,实现自动化决策、预测和优化等功能。大数据、智能之间存在密切的关系,它们相互促进、相互支撑,共同推动着人类社会的进步和发展。大数据内容1.大数据基础理论这包括研究设计严格亚线性复杂度分布式算法以及在并行分布式环境下对大数据处理问题难度的精细划分。在大数据时代,数据呈现出规模大、速度快、类型多等特点,这给传统的数据处理和分析方法带来了巨大的挑战。因此,大数据基础理论的研究显得尤为重要。2.大数据处理系统这侧重于新型软硬件架构上的系统优化,如:内存计算、异构计算、流计算等。大数据处理系统是用于处理大规模数据的系统,通常需要高性能的计算能力、存储能力和数据处理能力。常见的大数据处理系统包括分布式计算系统、并行计算系统、云计算系统等。3.大数据管理系统大数据管理系统是用于管理和处理大规模数据的系统,包括:数据的存储、查询、分析、挖掘等功能。常见的大数据管理系统包括:分布式文件系统、关系型数据库、非关系型数据库、数据仓库等。4.大数据分析大数据分析是指对大规模数据进行的分析,旨在挖掘数据中的价值和洞见。主要针对大规模数据的有效机器学习算法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乡镇(中心)卫生院绩效考核细则及评分办法(财务管理)
- 项目废旧物资处置记录
- 项目建设计划汇 总表
- SD建筑电气线管预留预埋施工技术培训
- 西藏自治区日喀则市2026届高三第二次模拟考试语文试卷含解析
- 医学26年:呼吸疾病商业保险解读 查房课件
- 26年药物相互作用基因筛选
- 【2900字】【苏宁融资模式分析案例】
- 记账实操-进出口(外贸)企业全套账务处理
- 26年意定监护法规实操指引课件
- 盆底康复中心运营管理
- 新疆乌鲁木齐天山区2026届中考历史全真模拟试卷含解析
- 辽宁省能源集团招聘笔试题库2026
- 2026年乡村医生培训考试试卷及答案(共十九套)
- 2026年湖北省武汉市辅警协警笔试真题及答案
- GB/T 47417-2026蜂蜜中水不溶物的测定
- LY/T 2015-2012大熊猫饲养管理技术规程
- 美国铁塔分析计算程序TOWER中文操作手册
- IATF16949质量管理体系内部培训课件
- 现代建筑理论PPT
- 口腔功能性矫正器课件
评论
0/150
提交评论