版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《大数据存储技术与应用案例教程》课程标准【课程名称】大数据存储技术与应用案例 【课程编码】【课程类别】专业必修课 【适用专业】计算机类专业【授课单位】 【总学时】64【编写执笔人】【编写日期】一、课程定位和课程设计1.1课程性质与作用1.课程性质大数据技术的发展对社会诸多领域都产生了巨大的推动作用,同时也使得数据资源成为各行各业发展的重要资源之一。大数据时代下,各类数据都呈现出爆炸式增长的趋势,各行各业对海量数据资源的存储要求也越来越高,这使得大数据存储在大数据技术领域占有越来越重要的地位。为了推动我国大数据行业的发展,满足存储、分析海量数据的行业需求,特开设大数据存储课程。2.课程作用通过本课程的学习,使学生了解大数据存储,掌握使用存储工具对海量数据进行存储和分析,并详细拆解学习广电用户数据存储与分析案例,根据实际业务需求,综合利用各种存储工具对海量数据进行存储、分析和处理,将理论与实践相结合,为将来从事数据存储、数据分析研究、工作奠定基础。1.2课程设计思路本课程主要理论结合实践,每个章节讲解理论的同时以各种软件实操和案例作为论证和巩固,提高学生学习的趣味。此外本课程包含众多实操分析案例,在案例操作的过程中,一方面需要指导学生完成案例操作的任务,利用工具和开发语言实现数据采集、存储、处理、分析、挖掘以及可视化等技能,另一方面需要激发学生主动学习、深入研究的热情。本课程立足于实际能力培养,打破以知识传授为主要特征的传统学科课程模式,转变为以实际操作任务为中心组织课程内容和课程教学,整合理论和实践让学生在完成具体案例的过程中来构建和了解相关理论知识体系,并发展大数据技术应用的职业能力。本课程实施项目教学以改变学与教的行为。二、课程目标课程紧紧贯彻高等职业教育人才培养模式的要求,即“基础理论够用、实用,强化实践环节,突出实际运用”的原则,通过《大数据存储技术与应用案例》课程的学习,使学生具有全面完整的大数据分析思路及应用实践能力。掌握大数据分析基础理论知识,能够熟练运用工具和开发语言实现数据采集、存储、处理、分析、挖掘以及可视化等操作,并得出逻辑清晰的可视化业务分析报告,解决实际问题。2.1知识目标 (1)了解大数据的特征、技术体系,以及大数据存储技术的发展历程。(2)了解分布式文件系统的特点和应用场景。(3)掌握大数据存储技术的分类和分布式文件系统的架构。(4)掌握HDFS的架构和存储原理。(5)熟悉数据仓库的特点、应用场景和分层架构。(6)熟悉Hive的架构、存储结构和表的存储格式。(7)掌握Hive中数据库和表的基本操作。(8)掌握Hive中导入数据、查询数据和导出数据的基本操作。(9)了解列式数据库的特点和应用场景。(10)熟悉HBase的特点、架构和存储结构。(11)掌握HBaseShell的常用命令,以及使用HBaseShell操作表和数据的方法。(12)掌握使用HBaseJavaAPI操作表和数据的方法。(13)了解文档数据库的特点和应用场景。(14)熟悉MongoDB的存储结构和数据类型。(15)掌握使用MongoDBShell操作数据库、集合和文档的方法。(16)掌握使用MongoDBJavaAPI操作数据库、集合和文档的方法。(17)了解图数据库的特点和应用场景。(18)了解Neo4j的存储结构和查询语言。(19)掌握Neo4j中创建、查询、更新、删除节点的基本操作。(20)掌握Neo4j中创建、查询、更新、删除关系的基本操作。(21)了解键值数据库的特点和应用场景。(22)掌握Redis的存储结构和数据类型。(23)掌握Redis中键、字符串、哈希表、列表、集合和有序集合的基本操作。(24)掌握Redis持久化的方法。2.2能力目标(1)能根据大数据存储相关岗位的要求制订具有针对性的学习计划。(2)能部署Hadoop完全分布式集群。(3)能采用远程模式部署Hive。(4)能根据业务需求合理设计并构建数据仓库。(5)能有效操作业务中的数据,包括向数据仓库导入数据、查询数据和导出数据等。(6)能采用完全分布式模式部署HBase。(7)能使用HBaseShell操作表和数据,简单管理和查询大规模数据。(8)能使用HBaseJavaAPI操作表和数据,实现复杂的数据处理和分析任务。(9)能采用副本集模式部署MongoDB。(10)能使用MongoDBShell操作数据库、集合和文档,实现大数据的合理存储和管理。(11)能使用MongoDBJavaAPI操作数据库、集合和文档,开发实用的大数据存储和管理项目。(12)能采用单机模式部署Neo4j。(13)能使用Neo4j的Web页面操作图数据中的节点和关系,实现大规模图数据的合理存储和管理。(14)能采用单机模式部署Redis。(15)能使用Redis操作不同类型的数据,灵活存储和管理大规模数据。(16)能实现Redis持久化,长期存储业务中的数据。(17)能采用单机模式部署CockroachDB。(18)能使用CockroachDBSQLShell操作数据库、模式、表和数据,高效存储和管理数据。2.3素养目标(1)加强基础知识的学习,实现从量变到质变的转化,为个人的长远发展打下基础。(2)了解我国的数据库市场,紧跟时代发展。(3)增强遵守规则的意识,养成按规矩行事的习惯。(4)学习共享精神,实现资源的共同利用,从而推动社会的共同进步和繁荣。(5)增强团结协作意识,实现共同进步。(6)学会利用事物间的关联性解决问题,提高逻辑思维能力。(7)增强主动思考、积极解决问题的意识。(8)提升举一反三、从多个角度思考问题的能力。(9)培养举一反三的能力,学会融会贯通。(10)培养自我学习和持续学习能力,能够及时掌握新技术和工具。(11)培养自主学习意识,提升实践操作能力。(12)掌握创新方法,培养独立思考和解决问题的能力。(13)培养审视问题、分解问题和处理问题的能力。(14)培养对比分析、归纳总结和举一反三的能力。三、课程内容及学时安排本课程共分为7个项目,即大数据存储入门、数据仓库Hive、列式数据库HBase、文档数据库MongoDB、图数据库Neo4j、键值数据库Redis和NewSQL数据库CockroachDB。各项目的内容及课时分配如表1所示。表1《大数据存储技术与应用案例教程》课程内容及课时分配表序号课程名称课程内容课时分配项目一大数据存储入门了解大数据存储相关岗位的要求4部署Hadoop完全分布式集群项目二数据仓库Hive采用远程模式部署Hive12构建网站流量数据仓库操作网站流量数据项目三列式数据库HBase采用完全分布式模式部署HBase12使用HBaseShell操作用户行为数据使用HBaseJavaAPI操作用户行为数据项目四文档数据库MongoDB采用副本集模式部署MongoDB12使用MongoDBShell操作网站数据使用MongoDBJavaAPI操作网站数据项目五图数据库Neo4j采用单机模式部署Neo4j8操作公司组织架构图数据项目六键值数据库Redis采用单机模式部署Redis8操作社交媒体数据项目七NewSQL数据库CockroachDB采用单机模式部署CockroachDB8操作电商平台的交易数据合计64四、课程实施4.1教学条件1.师资队伍教师应具备计算机科学、数据科学或相关专业背景,深入理解大数据存储技术原理和应用实践。例如,教师需掌握Hadoop、NoSQL数据库等关键技术的操作与原理。-最好有大数据相关项目开发经验,能够将实际项目中的问题与解决方案融入教学过程,引导学生理解理论知识在实践中的应用场景和解决实际问题的思路,提升学生实践能力与问题解决能力。2.教学场地需配备专业的计算机实验室,实验室网络环境稳定且带宽充足,满足大数据存储技术实验中大量数据传输需求。例如,百兆及以上的网络带宽能较好支持实验开展。实验室应安装有相关大数据存储软件与工具,如Hadoop集群、MongoDB、HBase等常用的大数据存储系统,方便学生进行实践操作与实验探究,使学生在实践中深入理解大数据存储技术原理与应用流程。3.教材资源选用系统全面且具有实践案例的教材,如《大数据存储技术与应用》等相关书籍,为学生提供理论学习基础与实践参考范例,帮助学生构建完整知识体系与实践框架。配备丰富的电子教学资源,包括教学视频、电子教案、在线测试题库等辅助教学材料,方便学生课后复习巩固知识,拓展学习深度与广度,同时也有助于教师开展多样化教学活动,提升教学效果。4.2教学方法建议本课程遵循“教师引导,学生为主”的原则,采用课堂讲授、案例教学、实践教学、小组讨论等多种方法,努力为学生创设更多知识应用的机会。课堂讲授:讲解大数据存储技术的基本概念、原理和方法,使学生对课程内容有系统的了解。案例教学:通过实际案例分析,让学生深入理解大数据存储技术的应用场景和解决问题的思路,提高学生的实践能力和创新思维。实践教学:安排实验课程,让学生亲自动手操作大数据存储系统,进行数据存储、查询和处理等实验,培养学生的动手能力和实际操作经验。小组讨论:组织学生进行小组讨论,针对特定的大数据存储问题或案例进行分析和讨论,促进学生之间的交流和合作,培养学生的团队协作能力和沟通能力。教师在教学过程中,可根据学生的实际情况灵活选用教学方法,因材施教,尽量照顾到每一个学生的学习需求。4.3考核与评价《大数据存储技术与应用案例教程》的考核应该综合考量学生的理论知识掌握程度、实践操作能力、分析与解决问题的能力等多方面,以下是一种可行的考核方式设计:1.平时考核(30%)考勤(5%):通过记录学生的出勤情况,督促学生按时上课,保证学习时间。例如,每迟到或早退一次扣1分,旷课一次扣3分等。课堂表现(10%):包括课堂参与度、回答问题的积极性和准确性等。例如,主动回答问题且答案正确的学生可获得加分,而扰乱课堂秩序的学生则会被扣分。课后作业(15%):布置与课程内容相关的书面作业和小型实践任务,如HDFS的基本配置描述、NoSQL数据库的简单查询编写等,以检验学生对课堂知识的理解和掌握。根据作业完成的质量、是否按时提交等情况给予相应分数。2.实验考核(30%)实验操作(15%):在实验课程中,观察学生对大数据存储技术的实际操作能力,如是否能正确搭建Hadoop集群、熟练使用MongoDB进行数据存储和查询等。根据操作的熟练程度、准确性和规范性进行评分。实验报告(15%):要求学生在完成实验后撰写详细的实验报告,内容包括实验目的、实验步骤、实验结果分析和总结等。根据报告的完整性、逻辑性、深度以及对实验中遇到问题的分析与解决能力给予分数。3.期末考试(40%)理论知识考核(25%):采用闭卷考试的形式,考查学生对大数据存储技术的基本概念、原理、架构等基础知识的掌握情况,如HDFS的体系结构、NoSQL数据库的类型与特点等。题型可以包括选择题、填空题、简答题等。案例分析与解决问题(15%):给出实际的大数据存储应用案例,要求学生分析案例中存在的问题,并提出解决方案。例如,分析某企业数据存储成本过高的原因,并提出使用合适的大数据存储技术优化存储方案,以此考查学生运用所学知识解决实际问题的能力。五、课程资源开发与利用5.1推荐使用教材5.2网络资源《大数据存储技术与应用案例教程》
教案课时分配表章序课程内容课时备注1大数据存储入门42数据仓库Hive123列式数据库HBase124文档数据库MongoDB125图数据库Neo4j86键值数据库Redis87NewSQL数据库CockroachDB8合计64
课程了解大数据存储相关岗位的要求课时2课时(90min)教学目标知识目标:(1)了解大数据的特征、技术体系,以及大数据存储技术的发展历程。(2)掌握大数据存储技术的分类能力目标:(1)能根据大数据存储相关岗位的要求制订具有针对性的学习计划。。素养目标:(1)加强基础知识的学习,实现从量变到质变的转化,为个人的长远发展打下基础。(2)了解我国的数据库市场,紧跟时代发展。教学重难点教学重点:了解大数据的特征、技术体系,以及大数据存储技术的发展历程;掌握大数据存储技术的分类教学难点:能根据大数据存储相关岗位的要求制订具有针对性的学习计划。教学方法情景模拟法、问答法、讨论法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤考勤【教师】使用APP进行签到【学生】按照老师要求签到新课预热【教师】自我介绍,与学生简单互动,介绍课程内容安排、考核要求等。【学生】聆听、互动【教师】教师讲一些关于大数据的内容【学生】聆听、思考、理解问题导入全班学生以
3~5
人为一组,各组选出组长。组长组织组员扫码观看“关系型数据库概述”视频,讨论并回答下列问题。简述关系型数据库的优缺点。简述关系型数据库的ACID特性。【学生】聆听、思考、回答【教师】总结学生的回答传授新知【教师】通过大家的发言,引入新的知识点,讲解大数据存储的相关知识任务一了解大数据存储相关岗位的要求一、大数据的特征(一)数据规模(volume)大(二)数据种类(variety)多(三)数据产生和传播速度(velocity)快(四)数据真实性(veracity)低(五)数据价值(value)密度低二、大数据技术体系大数据技术体系是指为了处理大规模数据而构建的一套完整的技术架构和使用的多种工具的集合。大数据技术体系可分:数据采集数据存储资源管理与服务协调数据计算数据可视化三、大数据存储技术的发展历程大数据存储技术经历手写或印刷、数据存储依赖于实体介质、关系型数据库、分布式文件系统、数据仓库技术、NoSQL数据库、NewSQL数据库、云存储服务。现在正朝着更加智能、灵活、安全、性价比高的方向发展,以满足不断增长的大数据存储和管理需求,从而应对多样化的应用场景。四、大数据存储技术的分类大数据存储技术主要分为5类:分布式文件系统数据仓库NoSQL数据库NewSQL数据库云存储任务实施【教师】使用多媒体播放“了解大数据存储相关岗位的要求”微课视频(详见教材),带领学生访问BOSS直聘、智联招聘、58同城等招聘网站,搜索并查看大数据存储相关岗位的招聘信息,了解大数据存储相关岗位的技术要求与岗位职责等。课堂小结【教师】简要总结本节课的要点。本节课学习了大数据存储相关岗位的要求,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思
课程部署Hadoop完全分布式集群课时2课时(90min)教学目标知识目标:(1)了解分布式文件系统的特点和应用场景。(2)掌握分布式文件系统的架构。(3)掌握HDFS的架构和存储原理。能力目标:(1)能部署Hadoop完全分布式集群。素养目标:(1)加强基础知识的学习,实现从量变到质变的转化,为个人的长远发展打下基础。(2)了解我国的数据库市场,紧跟时代发展。教学重难点教学重点:了解分布式文件系统的特点和应用场景;掌握分布式文件系统的架构;掌握HDFS的架构和存储原理。教学难点:能部署Hadoop完全分布式集群。教学方法情景模拟法、问答法、讨论法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤考勤【教师】使用APP进行签到【学生】按照老师要求签到问题导入全班学生以
3~5
人为一组,各组选出组长。组长组织组员扫码观看“分布式概述”视频,讨论并回答下列问题。简述分布式系统的概念和特点。简述分布式系统的数据一致性原则。【学生】聆听、思考、回答【教师】总结学生的回答传授新知【教师】通过大家的发言,引入新的知识点,讲解分布式文件系统的相关知识任务二部署Hadoop完全分布式集群分布式文件系统概述分布式文件系统可以将数据分散存储在多个节点上,不仅大幅扩充了存储容量,还通过并行处理技术显著提高了数据处理的速度。(一)分布式文件系统的特点分布式文件系统的特点主要体现在以下几个方面。跨网络存储。(2)高伸缩性。(3)高可用性。(4)负载均衡。(5)访问控制与安全。(6)高可扩展性。(二)分布式文件系统的应用场景在实际应用中,分布式文件系统已经被广泛应用于大数据分析、云计算、互联网应用、视频存储和流媒体、科学计算和模拟、多用户共享和协作(三)分布式文件系统的架构分布式文件系统架构主要由客户端、元数据服务器和数据服务器组成二、HDFS的架构Hadoop是一个开源的分布式存储和计算平台,旨在存储和处理大规模数据。HDFS是Hadoop的分布式文件系统,用于存储大规模数据;MapReduce是Hadoop的计算框架,用于并行处理大规模数据。HDFS可以与MapReduce、Hive、Pig等大数据处理工具紧密集成,为复杂的数据处理和分析提供便利,使得用户能够轻松地进行大规模数据计算。因此,HDFS是最流行的分布式文件系统之一。【教师】随机邀请学生回答以下问题:“开源是什么意思?”【学生】聆听、思考、回答【教师】总结学生的回答HDFS是一个典型的主从架构,其核心组件包括:一个名称节点(NameNode)一个第二名称节点(secondaryNameNode)若干个数据节点(DataNode)三、HDFS的存储原理HDFS通过分块(block)存储机制和副本(replication)存储机制实现数据的高效存储和确保数据的可靠性。任务实施【教师】使用多媒体播放“部署Hadoop完全分布式集群”微课视频(详见教材),带领学生部署Hadoop完全分布式集群。部署Hadoop完全分布式集群至少需要3台主机,并且需要在每台主机上安装JDK和Hadoop;然后修改主机的配置文件设置主机的主机名、网络和防火墙;接着设置SSH免密登录,确保3台主机可以无障碍通信;最后修改Hadoop的配置文件,设置Hadoop的配置信息。1.安装JDK和Hadoop2.设置主机的主机名、网络和防火墙3.设置SSH免密登录4.设置Hadoop的配置信息课堂小结【教师】简要总结本节课的要点。本节课学习了部署Hadoop完全分布式集群的相关知识,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点任务实训1.实训目标(1)熟练使用HDFS的相关命令操作文件。(2)熟练在HDFSWeb页面中操作文件。2.实训内容(1)使用HDFS的相关命令创建目录、上传文件、查看文件列表、下载文件、删除目录和文件。(2)在HDFSWeb页面中创建目录、上传文件、查看目录结构、下载文件、删除目录和文件。任务评价学生完成作业并进行自评;班内同学进行互评;教师进行师评,生成综合得分和等级。评价项目评价内容评价分数分值自评互评师评任务完成度
(20%)任务准备阶段,回答问题清晰准确,紧扣主题,没有明显错误5分任务实施阶段,根据操作步骤完成本任务5分项目实训阶段,出色地完成实训内容5分项目考核阶段,完成考核题目5分知识
(35%)大数据的特征和技术体系5分大数据存储技术的发展历程和分类10分分布式文件系统的特点、应用场景和架构10分HDFS的架构和存储原理10分技能
(35%)根据大数据存储相关岗位的要求制订具有针对性的学习计划15分部署Hadoop完全分布式集群20分素养
(10%)具有自主学习意识,做好课前准备5分脚踏实地,扎实掌握基本理论知识5分合计100分总评综合得分:____________指导教师签字:__________综合等级:____________作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思
课程采用远程模式部署Hive课时4课时(180min)教学目标知识目标:(1)熟悉数据仓库的特点、应用场景和分层架构。(2)熟悉Hive的架构、存储结构和表的存储格式。能力目标:(1)能采用远程模式部署Hive。素养目标:(1)增强遵守规则的意识,养成按规矩行事的习惯。(2)学习共享精神,实现资源的共同利用,从而推动社会的共同进步和繁荣。教学重难点教学重点:熟悉数据仓库的特点、应用场景和分层架构;熟悉Hive的架构、存储结构和表的存储格式。教学难点:能采用远程模式部署Hive。教学方法情景模拟法、问答法、讨论法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤考勤【教师】使用APP进行签到【学生】按照老师要求签到问题导入全班学生以3~5人为一组,各组选出组长。组长组织组员扫码观看“Hive和关系型数据库的异同”视频,讨论并回答下列问题。简述Hive和关系型数据库中数据类型的异同。简述Hive和关系型数据库中表存储格式的异同。【学生】聆听、思考、回答【教师】总结学生的回答传授新知【教师】通过大家的发言,引入新的知识点,讲解数据仓库的相关知识一、数据仓库的概述(一)数据仓库的特点数据仓库的特点主要体现在以下几个方面。主题性。(2)集成性。(3)稳定性。(4)历史性。(二)数据仓库的应用场景(三)数据仓库分层架构数据仓库分层是一种用于管理数据仓库的方法,它能将数据仓库划分为多个逻辑层次。每个层次都有特定的功能和作用,不同层次的数据具有不同的组织、存储和管理方式。数据仓库分层架构通常包括3层,分别为:源数据层。源数据层又称ODS(operationdatastore)层,主要用于保存原始数据,完成数据积存。源数据层通常采用ETL工具为数据仓库提供数据,使源数据和数据仓库之间保持数据同步。该层的数据通常保存在磁盘中,即使计算机突然停机或崩溃,数据也不会丢失。【教师】随机邀请学生回答以下问题:“ETL的作用是什么?”【学生】聆听、思考、回答【教师】总结学生的回答数据仓库层。数据仓库层又称DW(datawarehouse)层,存储的数据是对源数据层中数据的轻度汇总,即按照一定的主题汇总的数据。数据仓库层可以继续划分为:明细(datawarehousedetail,DWD)层中间(datawarehousemiddle,DWM)层业务(datawarehouseservice,DWS)层。数据应用层数据应用层又称DA(dataapplication)层,用于为数据挖掘、数据可视化、数据分析等实际业务场景提供数据。数据应用层的数据通常来源于数据仓库层。Hive的架构Hive是开源的数据仓库工具,它提供了一种类似于SQL(structuredquerylanguage)的查询语言(HiveQL),用于管理和查询大规模数据。Hive使用Hadoop底层的HDFS存储数据,使用MapReduce实现分布式计算。Hive由用户接口、Thrift服务、驱动器和元数据库等组件组成。课堂小结【教师】简要总结本节课的要点。本节课学习了采用远程模式布署Hive,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思考勤【教师】使用APP进行签到【学生】按照老师要求签到复习导入【教师】带领学生复习数据仓库概述和Hive架构,并随机提问学生【学生】聆听、思考、回答传授新知Hive的架构Hive是开源的数据仓库工具,它提供了一种类似于SQL(structuredquerylanguage)的查询语言(HiveQL),用于管理和查询大规模数据。Hive使用Hadoop底层的HDFS存储数据,使用MapReduce实现分布式计算。Hive由用户接口、Thrift服务、驱动器和元数据库等组件组成。三、Hive的存储结构Hive的存储结构主要包括数据库、表、分区、桶和字段等。(1)数据库(database)。数据库是一个目录或命名空间,用于分类存储表。它不仅可以避免不同表之间的命名冲突,确保表名的唯一性;还可以分类存储具有相关性的表,以便管理和查询数据。(2)表(table)。表是存储和管理数据的基本结构。表名、表的存储位置、字段名、字段的数据类型等元数据存储在元数据库中;表中的实际数据存储在对应的HDFS目录中,这些目录会在创建表时自动创建,并以表名命名。(3)分区(partition)。在Hive中,可以根据一个或多个分区字段的值对表中数据进行分区存储,每个分区都对应一个子目录,每个分区的数据存储在相应的子目录中。(4)桶(bucket)。在Hive中,可以根据一个或多个分桶字段的哈希值将表中数据分别存储在固定数量的桶中。(5)字段。字段是指表中的一个列,用于存储一种特定类型的数据。字段的数据类型包括基本数据类型和复杂数据类型。其中,基本数据类型与传统关系型数据库的数据类型类似,包括数值类型、日期/时间类型、字符串类型和布尔类型等;复杂数据类型包括数组(ARRAY)、映射(MAP)和结构体(STRUCT)。四、Hive表的存储格式在Hive中,常用的表存储格式包括TextFile、SequenceFile、ORC(optimizedrowcolumnar)和Parquet等。任务实施【教师】使用多媒体播放“采用远程模式部署Hive”微课视频(详见教材),带领学生配置Hive的服务端和客户端,并验证Hive是否配置成功。Hive的运行离不开Hadoop集群环境,因此本书在Hadoop完全分布式集群中采用远程模式部署Hive。采用远程模式部署Hive需要配置Hive的服务端和客户端,然后验证Hive是否配置成功。配置Hive的服务端(1)安装Hive(2)安装MySQL(3)配置MySQL保存Hive元数据2.配置Hive的客户端设置主机的主机名、网络和防火墙3.验证Hive是否部署成功课堂小结【教师】简要总结本节课的要点。本节课学习了采用远程模式布署Hive,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思
课程构建网站流量数据仓库课时4课时(180min)教学目标知识目标:(1)掌握Hive中数据库和表的基本操作。能力目标:能根据业务需求合理设计并构建数据仓库。素养目标:(1)增强遵守规则的意识,养成按规矩行事的习惯。(2)学习共享精神,实现资源的共同利用,从而推动社会的共同进步和繁荣。教学重难点教学重点:掌握Hive中数据库和表的基本操作。教学难点:能根据业务需求合理设计并构建数据仓库。教学方法情景模拟法、问答法、讨论法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤考勤【教师】使用APP进行签到【学生】按照老师要求签到问题导入全班学生以3~5人为一组,各组选出组长。组长组织组员扫码观看“Hive数据定义概述”视频,讨论并回答下列问题。简述Hive数据定义的概念。简述Hive中表的类型。【学生】聆听、思考、回答【教师】总结学生的回答传授新知【教师】通过大家的发言,引入新的知识点,讲解构建网站流量数据仓库的相关知识一、数据库的基本操作在Hive中,数据库的基本操作包括创建数据库、显示数据库、查看数据库的基本信息、切换数据库和删除数据库等。创建数据库使用CREATEDATABASE关键字可以创建数据库。显示数据库使用SHOWDATABASES关键字可以显示数据库。查看数据库的基本信息数据库的基本信息包含数据库名称、描述信息、存储位置、所有者和权限。使用DESCRIBEDATABASE关键字可以查看数据库的基本信息。切换数据库在Hive中,默认使用的数据库为default。如果需要使用已创建的其他数据库,则需要手动切换。使用USE关键字可以切换数据库。删除数据库使用DROPDATABASE关键字可以删除指定数据库。课堂小结【教师】简要总结本节课的要点。本节课学习了构建网站流量数据仓库,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思考勤【教师】使用APP进行签到【学生】按照老师要求签到复习导入【教师】带领学生复习数据库的基本操作,并随机提问学生【学生】聆听、思考、回答传授新知二、表的基本操作在Hive中,表的基本操作包括创建表、显示表、查看表信息、修改表、分区表的分区操作和删除表等。创建表。(一)创建表使用CREATETABLE关键字可以创建内部表、外部表、分区表和桶表等。【教师】随机邀请学生回答以下问题:“数据分隔符主要有几种?”【学生】聆听、思考、回答【教师】总结学生的回答(二)显示表使用SHOWTABLES关键字可以显示表。(三)查看表信息使用DESCRIBE关键字可以查看表信息。(四)修改表修改表的基本操作包括重命名表、修改字段、添加字段和替换字段等。(1)使用ALTERTABLE和RENAMETO关键字可以重命名表。(2)使用ALTERTABLE和CHANGE关键字可以修改字段。(3)使用ALTERTABLE和ADDCOLUMNS关键字可以添加字段。(4)使用ALTERTABLE和REPLACECOLUMNS关键字可以替换字段。需要注意的是,替换字段时,会替换掉表中的所有字段。(五)分区表的分区操作分区表的分区操作包括添加分区、显示分区、查看分区信息和删除分区等。(1)添加分区。添加分区是指在分区表中根据分区字段添加实际分区。使用ADDPARTITION关键字可以添加分区。(2)显示分区。使用SHOWPARTITIONS关键字可以显示分区。(3)查看分区信息。使用DESCRIBE关键字可以查看分区信息。(4)删除分区。使用DROPPARTITION关键字可以删除分区。删除表使用DROPTABLE关键字可以删除表。任务实施【教师】使用多媒体播放“构建网站流量数据仓库”微课视频(详见教材),带领学生构建网站流量数据仓库。首先设计网站流量数据仓库的分层,确定不同分层中包含的数据库、表和数据源,然后根据设计好的分层,分别创建数据库和表。设计网站流量数据仓库的分层创建源数据层的数据库和表创建明细层的数据库和表创建业务层的数据库和表课堂小结【教师】简要总结本节课的要点。本节课学习了构建网站流量数据仓库,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思
课程操作网站流量数据课时4课时(180min)教学目标知识目标:(1)掌握Hive中导入数据、查询数据和导出数据的基本操作。能力目标:(1)能有效操作业务中的数据,包括向数据仓库导入数据、查询数据和导出数据等。素养目标:(1)增强遵守规则的意识,养成按规矩行事的习惯。(2)学习共享精神,实现资源的共同利用,从而推动社会的共同进步和繁荣。教学重难点教学重点:掌握Hive中导入数据、查询数据和导出数据的基本操作。教学难点:能有效操作业务中的数据,包括向数据仓库导入数据、查询数据和导出数据等。教学方法情景模拟法、问答法、讨论法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤考勤【教师】使用APP进行签到【学生】按照老师要求签到问题导入全班学生以3~5人为一组,各组选出组长。组长组织组员扫码观看“Hive数据操作概述”视频,讨论并回答下列问题。简述Hive数据操作的概念。简述不建议使用Hive数据更新与删除的原因。【学生】聆听、思考、回答【教师】总结学生的回答传授新知【教师】通过大家的发言,引入新的知识点,讲解操作网站流量数据的相关知识一、导入数据导入数据是指将数据源中的数据加载到数据仓库各表中的过程。在Hive中,使用LOADDATA、INSERT关键字可以向已有的表中导入数据;使用CREATETABLE…AS关键字可以在创建表的同时导入数据;使用IMPORT关键字可以导入表。使用LOADDATA加载数据使用LOADDATA关键字可以将存储在本地文件系统或HDFS中的数据加载到Hive表中。(二)使用INSERT关键字可以向Hive表中插入指定数据。常用的插入数据的方式有基本插入、查询插入和动态分区插入。(1)基本插入。基本插入是指直接向Hive表中插入单条或多条数据,适用于已经有完整数据集的情况。(2)查询插入。查询插入是指将查询结果直接插入Hive表中,适用于根据特定条件过滤和转换数据后再进行插入的情况。在Hive中,查询插入可分为单表查询插入和多表查询插入。①单表查询插入是指将查询结果插入单个目标表中。②多表查询插入是指将查询结果插入多个目标表中。(3)动态分区插入。动态分区插入是指自动根据数据中的某些字段值创建和管理分区。【教师】随机邀请学生回答以下问题:“动态插入与查询插入有什么不同?”【学生】聆听、思考、回答【教师】总结学生的回答(三)使用CREATETABLE…AS导入数据使用CREATETABLE…AS关键字可以在创建新表的同时将查询结果导入新表中。(四)使用IMPORT导入表使用IMPORT关键字可以导入使用EXPORT关键字导出的表,包括表的元数据和实际数据。课堂小结【教师】简要总结本节课的要点。本节课学习了操作网站流量数据,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思考勤【教师】使用APP进行签到【学生】按照老师要求签到复习导入【教师】带领学生复习导入数据的相关命令,并随机提问学生【学生】聆听、思考、回答传授新知二、查询数据在Hive中,数据查询是指使用HiveQL检索或处理表中的数据。查询数据时可以使用运算符和Hive的内置函数对数据进行筛选、聚合和计算等操作。运算符运算符用于连接表达式中各种数据类型的操作数,其作用是指明对操作数所执行的运算类型。Hive内置运算符可分为4种类型,分别为算术运算符、关系运算符、逻辑运算符和复杂运算符。(1)算术运算符包括“+”(加)、“−”(减)、“*”(乘)、“/”(除)和“%”(取余)等,用于执行各种常见的算术运算。算术表达式的返回值为数值类型或NULL(空)。(2)关系运算符又称比较运算符,包括“=”(等于)、“!=”(不等于)、“<”(小于)、“<=”(小于等于)、“>”(大于)和“>=”(大于等于)等,用于比较两个操作数之间的关系。关系表达式的返回值为TRUE、FALSE或NULL。(3)逻辑运算符包括“AND”(与)、“OR”(或)和“NOT”(非)等,用于确定表达式的真和假。逻辑表达式的返回值为TRUE、FALSE或NULL。(4)复杂运算符用于访问或操作复杂类型数据中的元素。数据查询使用SELECT关键字可以进行数据查询,其基本语法格式如下:SELECT[ALL|DISTINCT]查询字段[[AS]字段的别名]FROM表名1[WHERE查询条件][GROUPBY分组字段[HAVING筛选条件]][ORDERBY排序字段[ASC|DESC]|SORTBY排序字段[ASC|DESC]][[INNER]JOIN表名2ON连接条件][LIMIT[起始位置,]数据行数];【教师】随机邀请学生回答以下问题:“GROUPBY关键字如何使用?WHERE关键字与HAVING关键字使用方法有什么不同?”【学生】聆听、思考、回答【教师】总结学生的回答三、导出数据导出数据是指将Hive表中的数据以某种格式从Hive环境中提取出来,并保存到外部存储介质(如本地文件系统、HDFS、数据库等)中的过程。在Hive中,使用INSERTOVERWRITE关键字可以导出表中的数据;使用EXPORT关键字可以导出表。使用INSERTOVERWRITE关键字可以导出表中的数据使用INSERTOVERWRITE关键字可以将从Hive表中查询的数据导出到本地文件系统或HDFS的一个或多个目录中。(1)使用INSERTOVERWRITE关键字可以将数据导出到一个目录中。(2)使用INSERTOVERWRITE关键字可以将数据导出到多个目录中。(二)使用EXPORT关键字可以导出表使用EXPORT关键字可以将Hive表导出到HDFS中,包括表的元数据和实际数据。任务实施【教师】使用多媒体播放“构建网站流量数据仓库”微课视频(详见教材),带领学生构建网站流量数据仓库。首先使用不同的数据导入方式将数据导入不同的表中;然后根据需要查询和统计表中数据;最后将不同省份和运营商的总流量导出到HDFS。导入网站流量数据(1)向源数据层导入数据(2)向明细层导入数据(3)向业务层导入数据查询网站流量数据导出网站流量数据课堂小结【教师】简要总结本节课的要点。本节课学习了操作网站流量数据,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点项目实训1.实训目标(1)熟练掌握数据库、表和分区的基本操作。(2)熟练掌握导入数据、查询数据和导出数据的方法。2.实训内容二手房数据文件“house.txt”中包含区、地铁站、户型、面积(单位:平方米)、楼层、房屋总价(单位:万元)、房屋单价(单位:元/米2)和是否近地铁8个字段的信息。二手房数据仓库的分层设计如表分层数据库表数据源源数据层houses_ods_databasehouses_ods_table二手房数据文件“house.txt”,表中字段包括region、subway_station、type、area、floor_level、total_price、unit_price和distance数据仓库层的明细层houses_dwd_databasehouses_dwd_table以region为分区字段,对表houses_ods_table中的数据进行分区存储,表中字段包括region、subway_station、type、area、floor_level、total_floor、total_price、unit_price和distance数据仓库层的业务层houses_dws_databasepriceavg_dws_table统计表houses_dwd_table中不同户型、面积、楼层、是否近地铁二手房的平均房价,表中字段包括priceavg、type、area、floor_level、distance和group_type。其中,group_type表示维度,当group_type为1时,表示户型维度;当group_type为2时,表示面积维度;当group_type为3时,表示楼层维度;当group_type为4时,表示是否近地铁维度根据上述信息,完成以下操作。(1)根据二手房数据仓库的分层设计,创建数据库和表。(2)使用不同的数据导入方式将数据导入不同的表中。将表houses_ods_table中的数据导入表houses_dwd_table中时,需要将floor_level字段拆分为两个字段(floor_level和total_floor),参考示例如下。#拆分出floor_level字段SUBSTRING_INDEX(floor_level,'(',1)ASfloor_level,#拆分出total_floor字段SUBSTRING_INDEX(SUBSTRING_INDEX(floor_level,'共',-1),'层',1)AStotal_floor,(3)查询表中数据,统计北京市内各区二手房的平均房价和在售数量、北京市二手房平均房价排名前3的房屋户型和北京市二手房平均房价最高的房屋楼层。(4)将宽表priceavg_dws_table中北京市不同户型二手房和不同面积二手房的平均房价数据分别导出到本地文件系统的“/usr/local/hive/hive_data/type_result”和“/usr/local/hive/hive_data/area_result”目录中。项目评价学生完成作业并进行自评;班内同学进行互评;教师进行师评,生成综合得分和等级。评价项目评价内容评价分数分值自评互评师评任务完成度
(20%)任务准备阶段,回答问题清晰准确,紧扣主题,没有明显错误5分任务实施阶段,根据操作步骤完成本任务5分项目实训阶段,出色地完成实训内容5分项目考核阶段,完成考核题目5分知识
(35%)数据仓库的特点、应用场景和分层架构5分Hive的架构、存储结构和表的存储格式5分Hive中数据库和表的基本操作10分Hive中导入数据、查询数据和导出数据的基本操作15分技能
(35%)采用远程模式部署Hive10分根据业务需求合理设计并构建数据仓库10分有效操作业务中的数据,包括向数据仓库导入数据、查询数据、导出数据等15分素养
(10%)具有自主学习意识,做好课前准备5分遵守规则,按规矩行事5分合计100分总评综合得分:____________指导教师签字:__________综合等级:____________作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思
课程采用完全分布式模式部署HBase课时4课时(180min)教学目标知识目标:(1)了解列式数据库的特点和应用场景。(2)熟悉HBase的特点、架构和存储结构。能力目标:(1)能采用完全分布式模式部署HBase。素养目标:(1)增强团结协作意识,实现共同进步。(2)学会利用事物间的关联性解决问题,提高逻辑思维能力。教学重难点教学重点:了解列式数据库的特点和应用场景;熟悉HBase的特点、架构和存储结构。教学难点:能采用完全分布式模式部署HBase。教学方法情景模拟法、问答法、讨论法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤考勤【教师】使用APP进行签到【学生】按照老师要求签到问题导入全班学生以
3~5
人为一组,各组选出组长。组长组织组员扫码观看“HBase的逻辑模型和物理模型概述”视频,讨论并回答下列问题。简述HBase逻辑模型的概念。简述Hbase物理模型的概念。【学生】聆听、思考、回答【教师】总结学生的回答传授新知【教师】通过大家的发言,引入新的知识点,讲解采用完全分布式模式部署HBase的相关知识一、列式数据库概述列式数据库提供了一种与传统行式数据库不同的数据存储和处理方式,在存储和管理大规模数据、执行复杂查询和数据聚合等方面具有明显优势。(一)列式数据库的特点列式数据库的特点主要体现在以下几个方面。数据压缩效率高。(2)查询效率高。(3)数据模型灵活。(二)列式数据库的应用场景二、HBase的特点HBase最初只是Hadoop项目的一部分,现已成为Apache软件基金会(Apachesoftwarefoundation,ASF)的顶级项目。目前,HBase的社区活跃度非常高,越来越多的互联网公司在业务场景中使用HBase存储和管理数据。HBase除了具备列式数据库的特点外,还具备以下特点:(1)支持多版本数据。(2)支持稀疏数据模型。课堂小结【教师】简要总结本节课的要点。本节课学习了采用完全分布式模式部署HBase的相关知识,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思考勤【教师】使用APP进行签到【学生】按照老师要求签到复习导入【教师】带领学生复习列式数据库概述和HBase的特点,并随机提问学生【学生】聆听、思考、回答传授新知三、HBase的架构HBase的架构由客户端、Zookeeper、HMaster和HRegionServer这4部分组成。四、HBase的存储结构HBase的存储结构包括表、分区、行、列族、列和单元格。(1)表(table)。表是最大的逻辑单元,用于组织数据。它包含一个或多个行和列族,并且通常被水平分割为多个分区。(2)分区(region)。HBase表可以根据行键范围进行水平分区,每个分区包含一定范围的行。(3)行(row)。行是表中的一条记录,由一个行键(rowkey)和列族中的列组成。行键是每行数据的唯一标识符,使用它可以快速检索和访问特定行的数据。(4)列族(columnfamily)。列族由若干列组成,列族内的所有列都存储在同一个底层存储文件中,因此具有相似的访问模式和压缩设置的列应该组织到同一个列族中。(5)列(column)。列用于存储具有相同数据类型或属性的数据,它由列族和列限定符(columnqualifier)组成。完整的列名由列族名、分隔符(:)和列限定符名组成,如“family:qualifier”。(6)单元格(cell)。单元格是HBase中的数据存储单元,行键、列族和列限定符共同确定一个单元格。每个单元格数据都有一个时间戳,用于标识数据的版本(version)。HBase表中的单元格内容没有特定的数据类型,通常以二进制字节形式存储。任务实施【教师】使用多媒体播放“采用完全分布式模式部署HBase”微课视频(详见教材),带领学生部署HBase集群。HBase的运行离不开Hadoop集群环境,因此本书在Hadoop完全分布式集群中部署HBase。采用完全分布式模式部署HBase需要安装并配置Zookeeper,部署HBase集群。1.安装并配置Zookeeper2.部署HBase集群课堂小结【教师】简要总结本节课的要点。本节课学习了采用完全分布式模式部署HBase的相关知识,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思
课程使用HBaseShell操作用户行为数据课时4课时(180min)教学目标知识目标:(1)掌握HBaseShell的常用命令,以及使用HBaseShell操作表和数据的方法。能力目标:(1)能使用HBaseShell操作表和数据,简单管理和查询大规模数据。素养目标:(1)增强团结协作意识,实现共同进步。(2)学会利用事物间的关联性解决问题,提高逻辑思维能力。教学重难点教学重点:了解列式数据库的特点和应用场景;熟悉HBase的特点、架构和存储结构。教学难点:能采用完全分布式模式部署HBase。教学方法情景模拟法、问答法、讨论法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤考勤【教师】使用APP进行签到【学生】按照老师要求签到问题导入全班学生以
3~5
人为一组,各组选出组长。组长组织组员扫码观看“Shell概述”视频,讨论并回答下列问题。简述Shell的定义。简述使用HBaseShell操作HBase的优势。【学生】聆听、思考、回答【教师】总结学生的回答传授新知【教师】通过大家的发言,引入新的知识点,讲解使用HBaseShell操作用户行为数据的相关知识一、HBaseShell的常用命令HBaseShell是HBase自带的命令行工具。通过HBaseShell,用户可以直接使用语句来完成表和数据的常见操作,无须编写额外代码或使用其他工具。这种交互方式简单直观,使得用户能够更加轻松地使用HBase,同时也为用户提供了最基本的学习和探索HBase功能的途径。HBase启动成功后,输入hbaseshell命令可以启动HBaseShell。(2)使用help命令可以在不借助网络或其他参考资料的情况下快速获取命令的帮助信息。二、表的基本操作与关系型数据库不同,HBase中没有数据库的概念,其基本组成单位为表。创建表使用create命令可以创建表。创建表时须指明表名和列族名。判断表是否存在使用exists命令可以判断指定表是否存在。显示表使用list命令可以显示HBase中的所有表。查看表信息使用describe命令可以查看表的结构信息。修改表使用alter命令可以修改表,如修改列族版本数、添加或删除列族等。禁用表使用disable命令和disable_all命令可以禁用表。(1)使用disable命令可以禁用指定表。(2)使用disable_all命令可以禁用所有满足正则表达式的表。【教师】随机邀请学生回答以下问题:“使用什么命令可以判断指定表是否禁用?”【学生】聆听、思考、回答【教师】总结学生的回答启用表使用enable命令和enable_all命令可以启用表。(1)使用enable命令可以启用指定表。(2)使用enable_all命令可以启用所有满足正则表达式的表。【教师】随机邀请学生回答以下问题:“使用什么命令可以判断指定表是否启用?”【学生】聆听、思考、回答【教师】总结学生的回答删除表删除表分两步进行,首先禁用表,然后删除表。使用drop命令和drop_all命令可以删除表。(1)使用drop命令可以删除指定表。(2)使用drop_all命令可以删除所有满足正则表达式的表。课堂小结【教师】简要总结本节课的要点。本节课学习了使用HBaseShell操作用户行为数据的相关知识,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思考勤【教师】使用APP进行签到【学生】按照老师要求签到复习导入【教师】带领学生复习HBaseShell的常用命令和表的基本操作,并随机提问学生【学生】聆听、思考、回答传授新知三、数据的基本操作数据操作是指对表中的数据进行操作,包括插入/更新数据、查询数据、删除数据、批量导入与导出数据等。(一)插入/更新数据使用put命令可以向表中插入数据或更新表中的数据。如果单元格中已有数据,则在不考虑时间戳的情况下,执行put命令将更新单元格中已有的数据。(二)查询数据使用get命令和scan命令可以查询表中的数据。(1)使用get命令既可以查询表中指定行的数据,又可以查询表中指定的多个或一个单元格的数据(行键和列族名共同确定多个单元格,行键和列名共同确定一个单元格)。(2)使用scan命令既可以查询表中的全部数据,又可以查询表中指定列族名或列名的数据。删除数据使用delete命令和deleteall命令可以删除数据。(1)使用delete命令可以删除表中指定单元格的数据。(2)使用deleteall命令既可以删除表中的整行数据,又可以删除表中指定单元格的数据。批量导入与导出数据(1)向HBase表中批量导入数据的常用方法有以下3种。①使用HBase的ImportTsv命令将存储在HDFS中的文本文件导入HBase表中,文件中的数据之间应当有明确的分隔符(如Tab、逗号等)。②使用HBaseJavaAPI的Put操作将数据逐条插入HBase表中,该方法适用于数据量较小的情况。③使用Import命令可以将使用Export命令导出的数据重新导入HBase表中。(2)使用Export命令可以将HBase表中的数据导出到HDFS中。任务实施【教师】使用多媒体播放“使用HBaseShell操作用户行为数据”微课视频(详见教材),带领学生使用HBaseShell创建并修改表user_behavior;然后将表中的数据插入表user_behavior中;最后根据需要更新、查询和删除指定数据。行键user_infobehavior_infouser_iduser_nameuser_ageitem_idbehavior
_timebehavior
_typebehavior
_address10000110001082liuna222833597762024-3-1brobeijing10000210001082liuna222833597762024-3-1cartbeijing10000310001082liuna222665221682024-3-1buybeijing100004100028063854221682024-3-1cartshanxi100005100028065156324522024-3-1buyshanxi100006100028067397319262024-3-2brohunan100007100028067397319262024-3-2favhunan10000810003905185418474132024-3-2cart10000910003905189658412352024-3-3bro10001010003905186654232112024-3-3fav课堂小结【教师】简要总结本节课的要点。本节课学习了使用HBaseShell操作用户行为数据的相关知识,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思
课程使用HBaseJavaAPl操作用户行为数据课时4课时(180min)教学目标知识目标:掌握使用HBaseJavaAPI操作表和数据的方法。能力目标:(1)能使用HBaseJavaAPI操作表和数据,实现复杂的数据处理和分析任务。素养目标:(1)增强团结协作意识,实现共同进步。(2)学会利用事物间的关联性解决问题,提高逻辑思维能力。教学重难点教学重点:掌握使用HBaseJavaAPI操作表和数据的方法。教学难点:能使用HBaseJavaAPI操作表和数据,实现复杂的数据处理和分析任务。教学方法情景模拟法、问答法、讨论法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤考勤【教师】使用APP进行签到【学生】按照老师要求签到问题导入全班学生以
3~5
人为一组,各组选出组长。组长组织组员扫码观看“API概述”视频,讨论并回答下列问题。简述APIl的定义。简述常用的Java集成开发环境。【学生】聆听、思考、回答【教师】总结学生的回答传授新知【教师】通过大家的发言,引入新的知识点,讲解使用HBaseJavaAPI操作用户行为数据的相关知识一、HBaseJavaAPI概述API(applicationprogramminginterface,应用程序接口)是一组定义了软件组件或系统之间交互方式的规则和协议。通过API,开发者可以在自己的应用程序中调用其他软件模块或服务。HBaseJavaAPI是HBase官方提供的一组用于与HBase数据库进行交互的Java类和方法。通过JavaAPI,开发者可以编写应用程序来执行创建表、禁用表、启用表、删除表、插入/更新数据、查询数据和删除数据等HBase数据库操作。JavaAPI允许开发者直接与HBase服务器通信,并采用更加高效和灵活的方式来访问和管理HBase中的数据。因此,HBaseJavaAPI更适用于复杂的数据处理和分析任务,如数据挖掘、数据分析、实时数据处理等。使用JavaAPI操作HBase前,须先安装并配置Java集成开发环境。目前较为常用的Java集成开发环境为IntelliJIDEA(以下简称IDEA),它提供了丰富的功能和工具,可以帮助开发者更加高效地编写和管理Java应用程序。鉴于IDEA的突出优势,本书使用IDEA编写Java应用程序。读者可以参考本书配套素材中的“前置环境的搭建”文档在Windows操作系统中安装和配置IDEA。下面介绍使用IDEA新建Java项目的方法。【教师】使用多媒体播放视频,介绍API【学生】聆听、理解、记忆二、表的基本操作使用HBaseJavaAPI可以对表进行创建、显示、修改、禁用、启用和删除等操作。接下来,我们以创建表、禁用表、启用表和删除表为例,讲解使用HBaseJavaAPI操作HBase表的方法。创建表在HBaseJavaAPI中,Admin类提供了许多操作HBase表的方法,创建表通过Admin类的createTable()方法实现。(1)获取HBase连接(2)获取Admin对象(3)定义HBase表的结构(4)添加列族(5)创建表(6)释放资源和关闭连接【教师】随机邀请学生回答以下问题:“TableDescriptorBuilder类提供了一系列方法,有什么作用?”【学生】聆听、思考、回答【教师】总结学生的回答禁用表和启用表在HBaseJavaAPI中,禁用表通过Admin类的disableTable()方法实现,启用表通过Admin类的enableTable()方法实现。删除表使在HBaseJavaAPI中,删除表通过Admin类的deleteTable()方法实现。课堂小结【教师】简要总结本节课的要点。本节课学习了使用HBaseJavaAPl操作用户行为数据的相关知识,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思考勤【教师】使用APP进行签到【学生】按照老师要求签到复习导入【教师】带领学生复习HBaseJavaAPI概述和表的基本操作,并随机提问学生【学生】聆听、思考、回答传授新知三、数据的基本操作使用HBaseJavaAPI可以对数据进行插入、更新、查询、删除等操作。接下来,我们以插入/更新数据、查询数据和删除数据为例,讲解使用HBaseJavaAPI操作HBase表中数据的方法。(一)插入/更新数据在HBaseJavaAPI中,Table类提供了许多操作HBase表中数据的方法,插入/更新数据通过Table类的put()方法实现。(1)获取HBase连接。(2)获取Table对象。(3)创建Put对象,并指定行键。(4)在行中插入/更新数据(5)在表中插入/更新数据。查询数据在HBaseJavaAPI中,查询数据通过Table类的get()方法或getScanner()方法实现。(1)使用get()方法查询数据的基本步骤如下。①获取HBase连接和Table对象。②创建Get对象,并指定行键。③如果要查询行中指定列的数据,则需要指定列族名和列限定符名。④查询表中数据。⑤处理查询结果。(2)使用getScanner()方法查询数据的基本步骤如下。①获取HBase连接和Table对象。②创建Scan对象。③如果要查询指定列的数据,则需要使用addColumn()方法指定列族名和列限定符名。④查询表中数据。⑤处理查询结果。批量导入与导出数据(三)删除数据在HBaseJavaAPI中,删除数据通过Table类的delete()方法实现。(1)获取HBase连接和Table对象。(2)创建Delete对象,并指定行键。(3)如果要删除行中指定列的数据,则需要使用addColumn()方法指定列族名和列限定符名。(4)删除表中数据。任务实施【教师】使用多媒体播放“使用HBaseJavaAPI操作用户行为数据”微课视频(详见教材),带领学生使用HBaseJavaAPI创建并修改表user_behavior;然后将表中的数据插入表user_behavior中;最后根据需要更新、查询和删除指定数据。行键user_infobehavior_infouser_iduser_nameuser_ageitem_idbehavior
_timebehavior
_typebehavior
_address10000110001082liuna222833597762024-3-1brobeijing10000210001082liuna222833597762024-3-1cartbeijing10000310001082liuna222665221682024-3-1buybeijing100004100028063854221682024-3-1cartshanxi100005100028065156324522024-3-1buyshanxi100006100028067397319262024-3-2brohunan100007100028067397319262024-3-2favhunan10000810003905185418474132024-3-2cart10000910003905189658412352024-3-3bro10001010003905186654232112024-3-3fav课堂小结【教师】简要总结本节课的要点。本节课学习了使用HBaseJavaAPl操作用户行为数据的相关知识,希望大家能够在课下多加复习,能够掌握基础知识,为后续知识的学习奠定必要的基础。【学生】总结回顾知识点项目实训1.实训目标(1)熟练使用HBaseShell与HBase进行交互。(2)熟练使用HBaseJavaAPI与HBase进行交互。2.实训内容个人资料表personal_profile的逻辑模型行键person_infoperson_addrnamesexbirthdayemailprovincecity101Lily1995-01-24Lily@shanxitaiyuan102TomTom@163.com103Tonymale1991-03-04shandongjinan104BobmaleBob@126.com使用HBaseShell和HBaseJavaAPI完成如下操作。(1)根据表3-3,创建表personal_profile,并查看表personal_profile的信息。(2)根据表3-3,向表personal_profile中插入数据,并验证数据是否插入成功。(3)将表personal_profile中行键为101的email信息更新为“Lily@126.com”。(4)查询表personal_profile中列名为“person_info:birthday”的数据。(5)删除表personal_profile中行键为103、列名为“person_addr:city”的数据。(6)删除表personal_profile,并验证表personal_profile是否删除成功。项目评价学生完成作业并进行自评;班内同学进行互评;教师进行师评,生成综合得分和等级。评价项目评价内容评价分数分值自评互评师评任务完成度
(20%)任务准备阶段,回答问题清晰准确,紧扣主题,没有明显错误5分任务实施阶段,根据操作步骤完成本任务5分项目实训阶段,出色地完成实训内容5分项目考核阶段,完成考核题目5分知识
(35%)列式数据库的特点和应用场景3分HBase的特点、架构和存储结构7分HBaseShell的常用命令,以及使用HBaseShell操作表和数据的方法15分使用HBaseJavaAPI操作表和数据的方法10分技能
(35%)采用完全分布式模式部署HBase集群10分使用HBaseShell操作表和数据,简单管理和查询数据10分使用HBaseJavaAPI操作表和数据,实现复杂的数据处理和分析任务15分素养
(10%)具有自主学习意识,做好课前准备5分互帮互助,具有团队精神5分合计100分总评综合得分:____________指导教师签字:__________综合等级:____________作业布置【教师】布置课后作业本课作业布置二维码老师扫描此码,即可进行线上作业布置【学生】完成课后任务教学反思
课程采用副本集模式部署MongoDB课时4课时(180min)教学目标知识目标:(1)了解文档数据库的特点和应用场景。(2)熟悉MongoDB的存储结构和数据类型。能力目标:(1)能采用副本集模式部署MongoDB。素养目标:(1)增强主动思考、积极解决问题的意识。(2)提升举一反三、从多个角度思考问题的能力。教学重难点教学重点:了解文档数据库的特点和应用场景;熟悉MongoDB的存储结构和数据类型。教学难点:能采用副本集模式部署MongoDB。教学方法情景模拟法、问答法、讨论法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤考勤【教师】使用APP进行签到【学生】按照老师要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年孩子关心父母测试题及答案
- 高中生活目标主题班会说课稿
- 2026年shopify建站操作测试题及答案
- 高中志愿填报说课稿2025
- 高中生物理力学知识说课稿
- 白内障手术术前患者配合度提升护理
- 小学环保编程主题班会说课稿2025
- 英语三年级下册Recycle 2教学设计
- 四年级信息技术下册 中华民族风采(二)教学设计 冀教版
- 广西桂林市2025-2026学年高二上学期期末质量检测历史试题(解析版)
- 无人机组装与调试职业技能等级标准
- 2026年宁夏银川市高三质检英语试题(含答案和音频)
- 2026江西赣州经开区工业发展投资(集团)有限责任公司及下属子公司招聘5名笔试历年备考题库附带答案详解
- (新教材)2026年部编人教版二年级下册语文 语文园地五 教学课件
- 原发性骨质疏松症诊疗指南(2022)解读课件
- 2026季华实验室科研部门及公共技术部门招聘10人(广东)笔试备考试题及答案解析
- 建工律师培训
- GB/T 46926-2025轻型汽车视野辅助系统技术要求及试验方法
- (2025版)休克诊治指南
- DB15∕T 4080-2025 装配式水蓄热内保温日光温室建设规范
- 双心医学讲座课件
评论
0/150
提交评论