数据分析与挖掘课程简介_第1页
数据分析与挖掘课程简介_第2页
数据分析与挖掘课程简介_第3页
数据分析与挖掘课程简介_第4页
数据分析与挖掘课程简介_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/1/31DataAnalysisandMining

数据分析与挖掘余乐安yulean@010-64438793北京化工大学经济管理学院2023/1/31岐王宅里寻常见,崔九堂前几度闻。正是江南好风景,落花时节又逢君。WelcometoSelectMyCourseDataAnalysisandMining数据分析与挖掘课程简介数据、分析与挖掘的关系数据是进行分析和挖掘的基础。分析是挖掘的前奏。挖掘出有价值的知识是目的。4教学安排计划讲授内容:数据统计分析+数据挖据计划课时:32课时(包括期末考试),含上机学时授课时间:1-6周

5教学方式以课堂讲授和上机实践为主课堂练习与讨论、课后实践为辅助方式实战案例6考核方式属考查课,课程结束的最后一周统一的实战考试60%。平时和作业:40%。考勤、平时作业、随堂测验、课堂发言、课堂展示、上机实验等等。7培养目标

使每个学过统计学的人成为统计数据忠诚而熟练的解释者。使每个学过统计学的人能够用分析和挖掘方法指导自己的生活、学习和工作。AnyQuestions?ThankYou!IntroductiontoDataScience&InformationServiceIndustry数据科学与信息服务产业简介2023/1/31SessionTopicsBackgroundandChallenges

问题背景与现实挑战

TheparadigmofDataScience数据科学的研究范式

ThefeaturesandproblemsofDataScience

数据科学的特征与问题

ThedevelopingstrategyofDataScience

数据科学的发展战略问题背景与挑战信息时代是海量数据与海量信息的时代大数据—总统竞选互联网,计算技术,电子商务和各种其它的新兴技术使我们获取数据、分析数据和利用数据的能力有了一个本质的变化。信息服务产业已成为发达国家经济转型的主要支柱。问题背景与挑战以Google,Facebook为代表的信息服务企业,在短短几年的时间里就进入了全世界最大、最受瞩目的企业的行列。它们的发展速度是在传统的工业模式下难以想象的。它们的成功也展示了信息服务产业巨大的发展空间。数据和信息资源已成为继人力资源和物质资源以外的第三大资源。数据资源的开发和利用将是未来社会和经济发展的主要手段之一,也应该成为制定国家长远发展计划需要考虑的主要因素之一。问题:信息服务产业的科学基础是什么?数据科学研究范式信息服务产业的科学基础是数据科学。简单说来,它由两个部分组成,即(1)用数据的方法来研究科学;(2)用科学的方法来研究数据。传统产业的科学基础是什么?传统工业,尤其是制造业的科学基础是自然科学,例如:物理学、化学等。数据科学研究范式科学研究有两个最基本的模式:开普勒模式和牛顿模式。(1)开普勒模式:通过观察数据总结出部分科学真理。(2)牛顿模式:通过对事物的基本原理分析出科学真理。牛顿模式要比开普勒模式深刻得多。所以牛顿模式成了科学研究的首选模式。几百年来的科学研究都是沿着一条以寻求基本原理为目标,而从根本上认识世界,认识自然这样一条道路走过来的。(1)用数据的方法来研究科学时至今日,科学家们在对基本原理的寻求方面取得了长足的进步。随着量子力学的建立,人们已经基本了解了在生命科学、化学、能源、环境等与日常生活息息相关的领域所需要的基本原理。现实的困难在于这些系统的复杂性——从基本原理出发去理解这些系统在目前和不太遥远的未来基本上都是一件不可能的事情。牛顿模式因此而面临着难以逾越的困难。另一方面,由于人们获取数据和分析数据能力的提高,从数据中直接总结出客观规律的开普勒模式的优势就体现了出来。生物信息学的成功就是一个很好的例子。(2)用科学的方法来研究数据从传统的角度来看,数据分析属于统计学的范畴。但近年来,随着机器学习、数据挖掘、生物信息、图像处理、信号处理等方面的发展,数据分析已经深入到了计算机科学、社会学、电子工程、生命科学、天文、地理、气象等各个领域。而且,从数据分析的角度来看,这些不同学科中的不同问题有着相当程度的统一性。正是这种统一性,使得数据科学有存在和发展的必要。发展数据科学要强调数学的重要性。数据科学的特征与问题由自然科学的成就转换成工业产品往往要经过一个漫长的过程。而数据科学则不同,数据科学与应用,与产业有着更为密切的联系。目前数据科学的发展存在着如下几个问题:(1)缺乏一个统一的平台。数据科学被瓜分到计算机科学、统计、数学、生物等等学科,他们之间还缺乏应有的联系。这使数据科学的发展受到了制约。(2)数学作为数据科学的基础,其作用还没有被充分认识到,更没有充分发挥出来。这在一定程度上限制了数据科学研究的深度。数据科学的特征与问题(3)企业界与学术界之间的相互影响还不够完善。企业界搜集的数据经常不够规范,企业界和学术界之间协同创新的模式还有待完善。(4)我国现行的教育和科研体制几乎将学科分类推到了极致。这更加不利于数据科学这样一个新型的,跨学科的领域的发展。(5)从Google和FaceBook等例子来看,信息服务产业中许多最有创造的想法都来自于年青人。而我们国家所通行的教育方式,如中学里的应试式教育和大学里的灌输式教育都极大地抑制了年青人的创造性。数据科学的发展战略(1)大学层面:应该充分认识到数据科学发展的巨大空间,可将数据科学提高到一个和自然科学并列的高度。以数学、计算机科学、统计、生物信息、金融和经济学、社会学等学科为依托,建立起一个数据科学的教育和科研平台。要建立起一个完整的本科生和研究生培养计划。这个教学计划的基础课程应该包括象线性代数、逼近论、离散数学、概率论和随机过程、以及数理统计等数学课程;同时也应包括象数据库、数据结构、机器学习、数据挖掘等计算机科学的课程。数据科学的发展战略(2)企业界角度来看:要充分认识到创新的重要性。中国本身就是一个很大的市场。其很多方面,如政策、语言、经济等方面的特点给国内的企业在占据国内市场方面提供了很多优势。但应该认识到,仅仅依靠这样的自然保护是难以持久发展的。要保证中国的信息产业能走到世界的前列,就必须走创新的道路,必须开拓国际市场。数据科学的发展战略(3)政府角度来看:要把发展数据科学和信息服务产业作为一项战略计划来抓。充分认识到这是关系到国计民生,关系到国家的经济、科学、和文化发展的根本利益和长远利益的一件大事。SessionSummary本讲小结总体来讲,数据科学的研

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论