计算机科学导论 课件 第8章 数据库与大数据_第1页
计算机科学导论 课件 第8章 数据库与大数据_第2页
计算机科学导论 课件 第8章 数据库与大数据_第3页
计算机科学导论 课件 第8章 数据库与大数据_第4页
计算机科学导论 课件 第8章 数据库与大数据_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章数据库与大数据目录8.2数据库技术概述8.38.4数据挖掘与运用8.1数据库与大数据概述数据库与大数据概述数据库技术概述关系模型与SQL语言8.5国产数据库软件与自主创新之路

第八章

数据库与大数据

本章目标(1)了解数据库与大数据的基本概念及应用场景;(2)掌握关系型数据库结构、数据模型与SQL语言基础;(3)熟悉数据库系统核心组成及事务管理机制;(4)理解大数据的5V特性及技术栈构成;(5)掌握数据挖掘的基本原理与常见算法;(6)熟悉大数据存储与计算框架;(7)了解国产数据库的发展现状与自主创新成果。

第八章

数据库与大数据8.1数据库与大数据概述

数据库基础知识定义与类型关键概念设计原则数据库是用于存储、管理和检索数据的系统,其核心是数据库管理系(DBMS)。数据库由表格、记录、字段、主键和外键构成。SQL基础操作包括SELECT(查询数据)、INSERT(插入数据)、UPDATE(更新数据)、和DELETE(删除数据)。数据库设计通常通过实体-关系(ER)图来展示实体及其关系。规范化过程(如1NF、2NF、3NF)用于减少数据冗余和提高数据完整性,确保数据库结构高效且易于维护。

第八章

数据库与大数据8.1数据库与大数据概述

大数据简介

应用场景:大数据广泛应用于金融(风险分析、欺诈检测)、医疗(疾病预测、个性化治疗)、零售(用户行为分析、精准营销)和物联网(设备监控、智能决策)等领域,帮助企业优化运营和决策。技术栈:大数据处理依赖于分布式计算框架(如Hadoop、Spark)、存储系统(如HDFS、NoSQL数据库)和分析工具(如机器学习算法、数据可视化工具),以实现高效的数据存储、处理和分析。

第八章

数据库与大数据8.1数据库与大数据概述

大数据应用场景案例:大数据在智能交通的应用

第八章

数据库与大数据8.1数据库与大数据概述

数据库与大数据的区别和联系数据库通常处理结构化数据,规模较小,适合事务性操作;而大数据技术处理海量、多类型数据,依赖分布式计算和存储。数据库强调ACID(原子性、一致性、隔离性、持久性),而大数据更注重可扩展性和容错性。数据库是大数据生态的重要组成部分,而NoSQL数据库支持灵活的大数据存储。两者结合可实现从数据采集到分析的完整流程。

第八章

数据库与大数据8.1数据库与大数据概述

数据库与大数据的区别和联系现代数据库(如NewSQL)尝试融合两者的优势,既支持传统SQL查询,又具备分布式处理能力。同时,大数据平台(如Hive)通过SQL接口简化了大数据查询,降低了使用门槛。区别案例:电商促销分析传统数据仅能处理结构化订单信息,而大数据可整合商品浏览、购买记录、用户画像等非结构化数据,通过机器学习分析用户消费偏好,精准推送促销信息。例如:某电商平台通过分析用户历史购买数据,发现特定商品组合购买率较高,从而优化商品推荐算法。

第八章

数据库与大数据8.2数据库技术概述

初识数据库数据库(Database)是存储与管理数据的软件系统,就像一个存入数据的物流仓库。数据库管理系统(DBMS):科学地组织和存储数据、高效地获取和维护数据。数据库系统(DBS):一般由数据库、数据库管理系统、数据库应用程序、用户构成。

第八章

数据库与大数据8.2数据库技术概述

数据库系统的发展历史

数据库(Database)是存储与管理数据的软件系统,就像一个存入数据的物流仓库。

第八章

数据库与大数据8.2数据库技术概述

人工管理阶段(20世纪50年代以前)(1)数据不保存。(2)数据由应用程序自己管理,没有相应的软件系统负责数据的管理工作。(3)数据不共享。(4)数据不具有独立性,数据的逻辑结构或物理结构发生变化后,必须对应用程序做相应的修改。

第八章

数据库与大数据8.2数据库技术概述

文件管理阶段(20世纪50年代后期到60年代中期)(1)数据可以长期保存。(2)由专门的文件系统进行数据管理,程序和数据之间由软件提供的存取方法进行转换,使应用程序与数据之间有了一定的独立性,程序员可以不必过多地考虑物理细节,将精力集中于算法。(3)数据共享性差。(4)数据独立性低。

第八章

数据库与大数据8.2数据库技术概述

数据库管理阶段(20世纪70年代以来)(1)数据结构化。(2)数据共享性好。(3)数据独立性高。(4)数据由DBMS统一管理和控制。

第八章

数据库与大数据8.3关系模型与SQL语言

数据需要通过人们认识、理解、抽象、规范和加工后,才能以数据库的形式放入计算机中。这一系列的加工过程主要借助数据模型来完成。

第八章

数据库与大数据8.3关系模型与SQL语言

概念层数据模型按用户的观点对数据建模,强调其语义表达能力,概念应该简单、清晰、易理解。概念层数据是对现实世界的第一层抽象,是用户和数据库设计人员之间进行交流的工具。这一类模型中最著名的是实体联系(EntityRelationship,ER)模型。

第八章

数据库与大数据8.3关系模型与SQL语言

组织层数据模型有层次模型、网状模型和关系模型。

第八章

数据库与大数据8.3关系模型与SQL语言

1.层次模型用树形(层次)结构表示实体类型及实体间联系的数据模型称为层次模型。

第八章

数据库与大数据8.3关系模型与SQL语言

2.网状模型用有向图结构表示实体类型及实体间联系的数据模型称为网状模型。

第八章

数据库与大数据8.3关系模型与SQL语言

3.关系模型:用二维表表示一类实体。①二维表中每一数据项不可再分,这是最基本项。②二维表中每一列数据有相同的类型,即属性。③每列数据的顺序是任意的。④每行数据是一个实体诸多属性值的集合,即元组。⑤各行数据的顺序是任意的。

第八章

数据库与大数据8.3关系模型与SQL语言

在当今的互联网中,最常见的数据库模型主要是两种,即关系型数据库和非关系型数据库。关系型数据库:成熟应用且服务与各种系统的主力数据库代表:Oracle、SQL

Server、MySQL非关系型数据库:在存储速度与灵活性方面有优势,也常用于缓存。代表:Redis、Mongodb

第八章

数据库与大数据8.3关系模型与SQL语言

在关系数据模型中,现实世界中的实体及实体之间的联系均用关系来表示。从逻辑或用户的观点看,关系就是二维表。关系数据模型中的操作包括:传统的集合运算:并、交、差、广义笛卡儿积;专门的关系运算:选择、投影、连接、除;有关的数据操作:查询、插入、删除、修改

第八章

数据库与大数据8.3关系模型与SQL语言

二维表

第八章

数据库与大数据8.3关系模型与SQL语言

以数据库为基础的信息系统通常称为数据库应用系统,它一般具有信息的采集、组织、加工、抽取和传播等功能。数据库应用系统的开发也是一项软件工程,但又有自己特有的特点,所以专门称为“数据库工程”。

第八章

数据库与大数据8.3关系模型与SQL语言

SQL语言分类的命令动词:数据定义:CREATE、ALTER、DROP,数据操纵:INSERT、DELETE、UPDATE,数据查询:SELECT,数据控制:GRANT、REVOKE。

第八章

数据库与大数据8.3关系模型与SQL语言

数据定义(1)创建数据库

第八章

数据库与大数据8.3关系模型与SQL语言

(1)创建数据库

第八章

数据库与大数据8.3关系模型与SQL语言

(2)创建基本表。选中表1,右键选“设计视图”,根据提示对表1进行重命名,这里命名为“学生表”,点击确定。

第八章

数据库与大数据8.3关系模型与SQL语言

打开设计视图进行数据表结构设计如下图(左,添加相应的字段和数据类型,创建好的数据表结构如下图(右)所示。

第八章

数据库与大数据8.3关系模型与SQL语言

添加记录。在数据库窗口中双击“学生表”数据表,开始录入学生记录,如下图所示。完成后单击“文件”→“保存”按钮,保存此数据表,依次建立“课程表”、“成绩表”、“系表”。需要注意:成绩表包含两个主键(学号、课程号),学号的索引设置为:有(有重复)。

第八章

数据库与大数据8.3关系模型与SQL语言

(3)创建关系。在菜单栏找到“数据库工具-关系”,在显示表中选择要建立关系的表,点击“添加”,关闭“显示表”对话框,将表中需要建立关系的字段,拖动到对应表的相应位置。

第八章

数据库与大数据8.3关系模型与SQL语言

数据操纵(1)删除数据记录。打开学生表,选择要删除的记录,并在其上右击,在弹出的快捷菜单中选择“删除记录”选项,如下图所示。

第八章

数据库与大数据8.3关系模型与SQL语言

数据操纵(2)添加数据记录。单击“开始-记录-新建”按钮,在表的末尾用刚才添加记录的方法添加新记录。

第八章

数据库与大数据8.3关系模型与SQL语言

数据操纵(3)数据查询(单表查询或多表查询都可以)打开要创建查询的数据库文件,单击“创建—查询设计按钮,弹出“显示表”对话框,如右下图所示。在对话框中选择要创建查询的表,添加到查询中。

第八章

数据库与大数据8.3关系模型与SQL语言

可以看到“学生表”和“成绩表”之间已经按照学号建立好了关系。在查询表中选中需要查询的字段,依次拖动到设计器的“字段”行中,添加完字段后,在“表”行中自动显示该字段所在的表名称,如下图所示。

第八章

数据库与大数据8.3关系模型与SQL语言

右击“查询1”标签,在弹出的快捷菜单中选择“保存”选项,弹出“另存为”对话框,在对话框中输入查询名称,如下图所示。

第八章

数据库与大数据8.3关系模型与SQL语言

在“成绩查询”视图中,单击某个字段右侧的下拉按钮,选择“升序”或“降序”选项,可对其进行排序,如下图所示。

第八章

数据库与大数据8.3关系模型与SQL语言

查看SQL语句点击菜单栏“视图”下拉菜单,选SQL视图,可以看到转换的SQL语句,如下图所示。

第八章

数据库与大数据8.3关系模型与SQL语言

快速创建报表选择用于创建报表的数据表,如“成绩表”,选择“创建”选项卡,单击“报表”,如下图(左)所示。系统就会自动创建出报表,如下图(右)所示,这种方法能显示出数据源的所有记录。同样,适用于不需要做任何个性化设计的报表。同样方法,也可以选中一个查询,创建出该查询的报表。

第八章

数据库与大数据8.3关系模型与SQL语言

修改报表单击“设计”菜单下的“文本框”按钮,可以为原报表画一个或多个新列。点击“属性表”,可以在标题栏设置新列的名称,单击“数据”按钮,可以设置数据的控件来源,如下图所示。

第八章

数据库与大数据8.4数据挖掘与运用

数据挖掘简介数据挖掘是从大量数据中自动或半自动地发现有价值的模式、知识和关系的过程。其目的是通过对数据的深入分析,发现潜在的规律和趋势。目标:预测:根据历史数据预测未来趋势。分类:根据已知信息对数据进行分类。聚类:对数据进行分组,找到相似性。关联分析:发现数据之间的隐性关联关系。

第八章

数据库与大数据8.4数据挖掘与运用

数据挖掘的基本过程数据准备:收集和清理数据,去除噪音和冗余数据,进行数据预处理。数据探索:分析数据的基本特点,了解数据分布,初步发现潜在的规律。数据建模:应用不同的算法模型(如分类、回归、聚类等)进行数据分析。模型评估:评估模型的效果,包括准确度、精确度、召回率等。模型部署:将最终的模型应用到实际问题中进行预测或决策。常用的数据挖掘方法分类:将数据分配到预定义的类别中。常用的分类算法有决策树、支持向量机(SVM)、K近邻(KNN)等。聚类:将数据集中的数据根据某些相似性规则分组。常见的聚类方法包括K均值(K-Means)和层次聚类(HierarchicalClustering)。回归:预测数据之间的连续值关系,常用的回归算法有线性回归、逻辑回归等。关联规则挖掘:发现数据项之间的关联关系,经典算法有Apriori和FP-growth。异常检测:检测与正常模式明显不同的数据点,常用于欺诈检测、网络安全等领域。

第八章

数据库与大数据8.4数据挖掘与运用

数据挖掘工具与技术Weka:一个开放源代码的机器学习工具,广泛用于数据挖掘和数据分析。RapidMiner:一个强大的数据挖掘平台,支持各种数据挖掘任务,如数据预处理、模型训练和评估。SAS:专业的统计分析系统,广泛用于数据分析和建模。Python&R:Python和R语言是数据科学家常用的编程语言,它们拥有丰富的库和工具(如Pandas,Scikit-learn,TensorFlow等),支持数据挖掘和机器学习任务。大数据技术支持:像Hadoop和Spark等大数据平台提供了分布式计算能力,支持在海量数据上进行高效的数据挖掘。数据挖掘在大数据中的应用商业领域:通过数据挖掘分析客户购买行为、推荐系统(如亚马逊的推荐引擎)等。金融领域:信用评分、欺诈检测、风险管理等。医疗领域:通过数据挖掘分析疾病模式,预测疾病的爆发等。社交网络分析:分析用户的行为和兴趣,优化社交平台的内容推荐。

第八章

数据库与大数据8.4数据挖掘与运用

数据挖掘的挑战与隐私数据质量问题:大数据中常常存在缺失值、噪声、重复数据等问题,这会影响数据挖掘的效果。隐私与安全:随着数据量和数据类型的增多,数据隐私和安全问题变得愈加重要。计算复杂性:数据挖掘算法尤其是在大数据环境下计算复杂度较高,可能需要大量的计算资源。过拟合问题:模型可能在训练数据上表现很好,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论