




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘与机器学习理解数据分析与挖掘的基本概念和方法、熟练掌握数据挖掘业务流程和典型应用场景,主要包括认识数据、数据预处理、数据挖掘技术等。掌握数据分析与挖掘中用到的典型机器学习算法,包括回归分析方法、关联规则挖掘、分类和聚类中的典型算法原理和应用。掌握利用Python进行数据分析与挖掘的方法,重点阐述典型数据挖掘方法利用scikit-learn实现的过程。熟悉Python数据分析常用的Numpy、Pandas和Matplotlib,熟练使用JupyterNotebook进行数据分析与挖掘。数据挖掘与机器学习第一章概论本章内容数据挖掘简介数据分析与数据挖掘数据挖掘的主要任务数据挖掘的数据源数据挖掘存在的主要问题数据挖掘工具Python数据挖掘常用类库10十一月20243数据分析与挖掘从文明之初的“结绳计数”到文字发明后的“文以载道”,再到近代科学的“数据建模”,数据一致伴随着人类社会的成长变迁。然而,直到以电子计算机为代表的现代信息技术出现后,才使人类掌握数据、处理数据的能力得到空前高速的发展。信息技术及其在社会经济生活方方面面的应用(即信息化)推动数据(信息)称为继物质、能源之后的第三大战略资源。大数据(存储管理、分析、处理)知识是人类对客观世界的观察和了解,是人类对客观世界是什么、为什么、应该怎么做的认知,知识推动人类的进步和发展。人类所作出的正确判断和决策,以及采取正确的行动都是基于智慧和知识。数据是反映客观事物的数字、词语、声音和图像等,是可以进行计算加工的“原料”。数据是对客观事物的数量、属性、位置及其相互关系的抽象表示,适合于保存、传递和处理。TheExplosiveGrowthofData-------fromterabytestopetabytes数据分析与挖掘简介数据分析与挖掘简介自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。主要的数据来源与领域:Web,e-commerce,transactions,stocks,…Science:Remotesensing,bioinformatics,scientificsimulation,…Societyandeveryone:news,YouTube62016年每分钟产生的海量数据“数据丰富,信息贫乏”数据分析与挖掘简介面对大量的数据,迫使人们不断寻找新的工具,对规律进行探索,为决策提供有价值的信息。数据挖掘有助于发现趋势,揭示已知的事实,预测未知的结果。人们迫切希望能够对海量数据进行分析挖掘,发现并提取隐含在数据中的有价值信息。10十一月20247WhyDataMining?Wearedrowningindata,butstarvingforknowledge!
“Necessityisthemotherofinvention”解决办法:数据仓库(DataWarehouse)和在线分析处理(OLAP)数据挖掘—在大量数据中发现有用的知识、模式、规律、约束等数据挖掘简介数据挖掘(DataMining)是人工智能和数据库领域研究的热点问题,是指从大量有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、事先不知道但具有潜在利用价值的信息的过程。这个定义包括几层含义:数据必须是真实的、大量的并且含有噪声的;发现的是用户感兴趣的可以接受、理解和运用的知识;仅支持特定的问题,并不要求放之四海而皆准的知识。与数据挖掘的含义类似的还有一些术语如从数据中心挖掘知识、知识提取、数据/模式分析等。10十一月20249WhatIsDataMining?Datamining(knowledgediscoveryfromdata)数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。AlternativenamesKnowledgediscovery(mining)indatabases(KDD),knowledgeextraction,data/patternanalysis,dataarcheology,datadredging,informationharvesting,businessintelligence,etc.并非所有东西都是数据挖掘查询、专家系统、小型的科学计算、统计10数据挖掘简介ThisisaviewfromtypicalmachinelearningandstatisticscommunitiesInputDataPatternInformationKnowledgeDataMiningDataPre-ProcessingPost-ProcessingDataintegrationNormalizationFeatureselectionDimensionreductionPatterndiscoveryAssociation&correlationClassificationClusteringOutlieranalysis…………PatternevaluationPatternselectionPatterninterpretationPatternvisualization数据分析与数据挖掘数据分析(DataAnalysis,DA)是数学与计算机科学相结合的产物,是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。数据分析和数据挖掘都是基于搜集来的数据,应用数学、统计和计算机等技术抽取出数据中的有用信息,进而为决策提供依据和指导方向。数据分析有广义与狭义之分。广义的数据分析包括了狭义数据分析和数据挖掘。10十一月202412数据分析与数据挖掘10十一月202413数据分析与数据挖掘10十一月202414差异数据分析数据挖掘定义描述和探索性分析,评估现状和修正不足技术性的“采矿”过程,发现未知的模式和规律侧重点实际的业务知识挖掘技术的落地,完成“采矿”过程技能统计学、数据库、Excel和可视化等过硬的数学功底和编程技术结果需结合业务知识解读统计结果模型或规则数据分析与数据挖掘对比数据挖掘的主要任务数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术。10十一月202415数据挖掘:知识挖掘的核心DataCleaningDataIntegrationDataWarehouseKnowledgeTask-relevantDataSelectionDataMiningPatternEvaluation数据挖掘的主要任务数据挖掘的主要任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。(1)关联规则挖掘由RakeshApwal等人首先提出。两个或两个以上变量的取值之间存在的规律称为关联。(2)预测建模是指根据已知的数据构建出一个数据模型,然后应用这个模型对未知数据的所属分类进行预测,主要包括分类和回归两类问题。(3)聚类是把数据按照相似性归纳成若干类别,使得同一类中的数据彼此相似,不同类中的数据尽量相异。(4)离群点指全局或局部范围内偏离一般水平的观测对象。离群点等异常值会对数据分析与挖掘产生不良影响。10十一月202416数据挖掘的数据源作为一门通用的技术,只要数据对目标应用是有用的,数据挖掘就可以用于任何类型的数据。对于挖掘的应用,数据的基本形式主要有数据库数据、数据仓库、事务数据库和其它数据源。(1)数据库系统是由一组内部相关的数据和用于管理这些数据的程序组成,通过软件程序对数据进行高效的存储和管理,并发、共享或分布式访问,并保证数据的完整性和安全性。10十一月202417数据挖掘的数据源(2)数据仓库是依照分析需求、分析维度和分析指标进行设计的,它是数据库的一种概念上的升级。(3)事务数据库的每个记录代表一个事务,例如一个航班的订票、顾客的一个交易等。(4)其它类型数据时间相关的数据和序列数据,数据流,空间数据,Web数据(HTML等)等。10十一月202418数据挖掘使用的技术作为一个应用驱动的领域,数据挖掘吸纳了诸如统计学、机器学习、数据库和数据仓库、数据可视化、算法、高性能计算和许多应用领域的先进技术10十一月202419数据库系统与数据仓库数据库管理系统(DatabaseManagementSystem,DBMS)是一种操纵和管理数据库的大型软件,主要关注数据库的创建、维护和使用。数据仓库(Datawarehouse)是面向主题的、集成的与时间相关且不可修改的数据集合。数据库主要用于事务处理,数据仓库主要用于数据分析,用途上的差异决定了两种架构的特点不同。10十一月202420数据挖掘与机器学习10十一月202421从数据分析的角度来看,数据挖掘与机器学习有很多相似之处,但不同之处也十分明显,例如:数据挖掘并没有机器学习探索人的学习机制这一科学发现任务,数据挖掘中的数据分析是针对海量数据的,等。从某种意义上说,机器学习的科学成分更重一些,二数据挖掘的技术成分更中一些。机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机是怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身性能。数据挖掘(DataMining)是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。数据挖掘中用到了大量的机器学习界提供的数据分析技术和数据库界提供的数据管理技术。数据挖掘存在的问题目前,数据挖掘在很多领域取得了巨大成功,但依然存在一些具有挑战性的问题。(1)数据类型多样化(2)噪声数据(3)高维度数据(4)数据挖掘的可视化10十一月202422数据挖掘建模常用工具1商用工具商用工具主要由商用的开发商提供,通过市场销售,提供相关的服务。与开源软件相比,商用软件更强大、软件性能更加成熟稳定。主要的商用数据挖掘工具有SASEnterpriseMiner、SPSSClementine和IBMIntelligentMiner等。2开源工具开源软件的最大优势在于免费,而且让任何有能力的人参与并完善软件。相对于商用工具,开源软件工具更容易学习和掌握。常用的开源工具有R语言、Python、Weka和RapidMiner等。10十一月202423SASEnterpriseMinerSPSSClementineIntelligentMinerQUEST1商用工具数据挖掘常用工具RWekaMahoutRapidMinerPythonSparkMLlib2开源工具数据挖掘常用工具PythonPython是一种功能强大的、开源的、解释性、面向对象计算机编程语言,内建有各种高级数据结构,支持模块和包,支持多种平台并可扩展。Python语言简洁、易学习、易阅读,并在数据统计、机器学习方面得到广泛应用,是人工智能研究领域中一个非常重要的工具。数据挖掘常用工具利用Python进行数据挖掘的优势1.爬取数据需要Python2.数据分析需要Python3.Python语言简单高效10十一月202427利用Python进行数据挖掘的优势10十一月202428Python数据挖掘常用类库Python的第三方模块很丰富,而且语法非常简练,自由度很高。10十一月202429数据科学计算平台——Anaconda10十一月202430Anaconda是一个集成的Python数据科学环境,简单的说,Anaconda除了有Python外,还安装了180多个用于数据分析的第三方库,而且可以使用conda命令安装第三方库和创建多个环境。相对于只安装Python而言,避免了安装第三方库的麻烦。网站:/help/anaconda/数据科学计算平台——AnacondaJupyterNotebook(Julia+Python+R=Jupyter)基于Web技术的交互式计算文档格式,支持Markdown和Latex语法,支持代码运行、文本输入、数学公式编辑、内嵌式画图和其他如图片文件的插入,是一个对代码友好的交互式笔记本。10十一月202431确认勾选将Python添加到系统环境变量
数据科学计算平台——Anaconda数据科学计算平台——AnacondaAnacondaNavigator数据科学计算平台——Anaconda
conda:一个工具,用于包管理和环境管理,其中:
包管理与pip类似,管理python第三方;
环境管理能够允许用户使用不同版本的Python,并能灵活切换数据科学计算平台——AnacondaWin+R:运行CMD命令;conda–V:显示python版本,说明环境变量设置成功;condaupgrade-all
:先把所有工具包进行升级
包的安装和卸载:condainstallxxx#xxx为包名condaremovexxxpipinstallxxxpipuninstallxxxJupyterNotebook的使用JupyterNotebook(Julia+Python+R=Jupyter)基于Web技术的交互式计算文档格式,支持Markdown和Latex语法,支持代码运行、文本输入、数学公式编辑、内嵌式画图和其他如图片文件的插入,是一个对代码友好的交互式笔记本。10十一月202436数据科学计算平台——Anaconda数据科学计算平台—Anaconda1.JupyterNotebook中的代码输入与编辑10十一月202437Files基本上列出了所有的文件,Running显示了当前已经打开的终端和Notebooks,Clusters由IPythonparallel包提供,用于并行计算。若要创建新的Notebook,只需单击页面右上角的New按钮,在下拉选项中选择python3,即可得到一个空的notebook界面如图1-3所示数据科学计算平台—Anaconda主要由以下部分组成:notebook标题、主工具栏、快捷键、notebook编辑区。若要重新命名notebook标题,可选择File|Rename,输入
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新质生产力绿色出行
- 血管周细胞瘤的临床护理
- 2025典当借款合同范本C
- 沈阳高一数学试卷及答案
- 商品学期末试卷及答案
- 2025装饰装修劳务分包合同(正式)
- 智能设备用户体验设计考核试卷
- 玉米加工与农产品精深加工考核试卷
- 浙江国企招聘2025上半年嘉兴市属国有企业招聘97人笔试参考题库附带答案详解
- 纺织设备电气控制技术考核试卷
- 尼康COOLPIXL120用户手册
- ICT测试设备简介
- 2024年中考模拟试卷生物(广东深圳卷)
- 精神类药物中毒护理查房
- 项目工期管理
- 【MOOC】英语语法与写作-暨南大学 中国大学慕课MOOC答案
- 2023年新高考天津卷历史高考真题(含答案)
- 部门发展规划
- 《平法识图与钢筋算量》课件
- 《电力系统继电保护课程设计》两台三绕组变压器线路继电保护
- 浙江省杭州市(2024年-2025年小学五年级语文)人教版期末考试(下学期)试卷及答案
评论
0/150
提交评论