大模型概念、技术与应用实践 课件 第5章 本地部署大模型_第1页
大模型概念、技术与应用实践 课件 第5章 本地部署大模型_第2页
大模型概念、技术与应用实践 课件 第5章 本地部署大模型_第3页
大模型概念、技术与应用实践 课件 第5章 本地部署大模型_第4页
大模型概念、技术与应用实践 课件 第5章 本地部署大模型_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大模型概念、技术与应用实践第5章

本地部署大模型目录5.1为什么需要本地部署大模型5.2本地部署大模型的成本5.3DeepSeek大模型一体机5.4本地部署DeepSeekR1大模型5.5模型微调和本地知识库5.1为什么需要本地部署大模型5.1为什么需要本地部署大模型在本地部署大模型具有以下优势:优势数据隐私与安全性成本与资源优化避免使用限制定制化与灵活性离线与高效使用5.1为什么需要本地部署大模型数据隐私与安全性所有数据运算和存储均在本地完成,不会上传至云端,有效避免了数据在传输和云端存储过程中可能带来的隐私泄露风险数据本地存储用户可以完全掌控数据的使用和存储,确保数据不被未经授权的访问或用于其他目的完全掌控数据支持访问权限控制,进一步增强数据安全性隐私保护机制5.1为什么需要本地部署大模型定制化与灵活性用户可以根据自己的需求对模型进行自定义知识库训练,进一步提升模型在特定领域的性能自定义知识库训练根据业务需求灵活调整模型参数和功能,满足不同场景下的个性化需求灵活调整模型参数开源模型一般都允许用户无限制地进行微调或将其集成到自己的项目中开源灵活性5.1为什么需要本地部署大模型离线与高效使用离线访问本地部署后,无需依赖网络连接,适合旅行或网络不稳定的场景,随时随地可用避免服务器繁忙再也不用担心“服务器繁忙”的问题,提升使用体验5.1为什么需要本地部署大模型成本与资源优化长期使用比云服务更经济,尤其适合高频调用场景成本可控对硬件资源要求较低,可在较少GPU或高级CPU集群上运行,资源效率显著硬件友好5.1为什么需要本地部署大模型避免使用限制本地部署避免了可能出现的使用限制,不受未来商业化影响,可永久免费使用。通过本地部署开源大模型,用户不仅能够享受强大的AI功能,还能在数据隐私、定制化需求和使用成本等方面获得显著优势5.2本地部署大模型的成本5.2本地部署大模型的成本DeepSeekR1本地部署的成本,因部署方案和硬件配置差异较大,具体可分为以下三类情况:类别企业级满血版(671B参数)部署个人开发者方案云服务方案5.2本地部署大模型的成本企业级满血版(671B参数)部署企业级满血版参数规模是671B,即6710亿参数运维成本硬件采购成本服务器集群(含8张NVIDIAA100/H100显卡的服务器)的成本约80-120万元,配套设备(液冷系统、冗余电源等)的成本约15-25万元在电费方面,满载功耗约6000W,年电费约5-8万元(按工业电价1.2元/度计算)。在维护方面,专业工程师团队年成本约30-50万元5.2本地部署大模型的成本个人开发者方案大模型蒸馏,简单来说,就是将一个复杂的大模型(教师模型)的知识迁移到一个较小的模型(学生模型)中。就像老师把自己渊博的知识传授给学生,让学生能够在资源有限的情况下,尽可能地表现出和老师相似的能力。一般采用双卡配置,包括2张RTX3090显卡(约2.4万元)和64GB内存(约0.3万元),总成本约3-4万元‌大模型的量化版本是指通过降低模型参数的数值精度(如将32位浮点数转换为8位整数),实现模型压缩和推理加速的技术‌。这种技术通过牺牲少量精度换取更小的存储需求和更高的计算效率,使大模型能在资源受限的设备上运行。一般采用单卡配置,需要NVIDIARTX4090显卡(约1.8万元)和128GB内存(约0.6万元),总成本约2.5-3万元(含整机配置)量化版模型部署(70B4bit)蒸馏版模型部署(32B参数)5.2本地部署大模型的成本云服务方案比如租赁华为云服务,一般采用按需付费的方式,搭载8卡A100的实例约58元/小时。如果采用包月套餐,费用约3.5-4万元/月(含模型调用权限)5.2本地部署大模型的成本下表给出了三种不同方案的费用对比情况方案类型初始投入年运维成本适用场景企业级满血版95-145万元35-58万元大型机构/科研中心个人量化版2.5-3万元0.5-1万元开发者/小型团队华为云租赁0元(按需付费)3.5-4万元/月短期项目/临时需求5.3DeepSeek大模型一体机5.3DeepSeek大模型一体机DeepSeek大模型一体机具有以下特点:全生命周期管理数据安全与本地化部署行业场景深度适配动态资源调度全尺寸模型支持特点5.3DeepSeek大模型一体机

目前国内厂商提供的DeepSeek大模型一体机解决方案主要包括:

1.天玑科技:PriData超融合一体机;2.深信服:一朵云;3.海康威视:文搜存储系列产品;4.大华股份:大华神算;5.浪潮信息:DeepSeek“推理一体机”;6.中国长城:长城擎天GF7280V5AI训推一体机;7.中科曙光:曙光DeepSeek人工智能一体机;8.优刻得:DeepSeek满血版大模型一体机;9.云从科技:从容大模型训推一体机;10.天融信:融信DeepSeek安全智算一体机;11.新致软件:新致信创一体机;12.软通动力:DeepSeek应用方案一体机;13.科大讯飞:“星火+DeepSeek”双引擎一体机;14.拓维信息:拓维信息智能数据标注一体机;15.协创数据:FcloudDeepSeek满血版一体机;

16.麒麟信安:麒麟信安全国产化智算一体机;17.亚康华创科技:D-BOXPro桌面级智能一体机;18.华为昇腾:昇腾DeepSeek推理一体机;19.联想集团:智能体一体机与训推一体服务器;20.钉钉科技:专属AI一体机;21.新华三:DeepSeek智能一体机;22.宝得:DeepSeek一体化智能设备;23.中国电信:息壤智算一体机DeepSeek版;24.中国移动:智算一体机DeepSeek版;25.中国联通:DeepSeek一体机;26.柏飞电子:DeepSeek加固式一体机;27.京东云:DeepSeek大模型一体机;28.华能振宇:天巡DeepSeek大模型一体机;29.昆仑技术:DeepSeek本地化部署一体机;30.百度:百舸DeepSeek一体机;31.黄河信产:黄河DeepSeek一体机。

5.4本地部署DeepSeekR1大模型5.4本地部署DeepSeekR1大模型DeepSeekR1简介在本地计算机部署DeepSeekR15.4.1DeepSeekR1简介

2025年1月20日,我国杭州深度求索公司的DeepSeekR1大模型正式发布,它是一个基于深度学习的推荐系统模型,通常用于处理推荐任务,如商品推荐、内容推荐等。DeepseekR1的发布,标志着大模型产品的“平民”时代已经到来,它大大降低了对计算机硬件的要求,可以部署在普通的个人计算机上,甚至部署在手机等便携式设备中。Deepseek采用了较为简洁高效的模型架构,去除了一些不必要的复杂结构和计算,在保证模型性能的基础上,降低了对计算资源的需求,使模型在本地计算机上运行更加轻松。通过先进的量化压缩技术,Deepseek将模型的参数进行压缩存储和计算,大大减少了模型所需的存储空间和计算量。2025年1月30日,微软公司宣布支持在Win11电脑本地运行DeepSeekR1大模型。5.4.2在本地计算机部署DeepSeekR1安装Ollama访问Ollama官网(/),点击“Download”(如图左所示),根据操作系统(Windows、macOS或Linux)下载自己操作系统对应的安装包(如图右所示)5.4.2在本地计算机部署DeepSeekR1安装Ollama下载完成以后,双击安装包文件“OllamaSetup.exe”完成安装安装完成后,在Windows系统中,右键单击开始菜单按钮,在弹出的菜单中选择“运行”,再在弹出的对话框中输入“cmd”并回车,打开cmd命令行工具窗口,输入以下命令验证是否安装成功:ollama--version如果显示Ollama版本号,说明安装成功(如图所示)5.4.2在本地计算机部署DeepSeekR1下载DeepSeekR1Ollama已经在第一时间支持DeepSeekR1,模型下载地址是/library/deepseek-r1。请根据自己的显存选择对应的模型,建议选择参数较少、体积最小的1.5B版本(如果计算机的配置较高,也可以选择参数较大的版本)。当然,我们可以不用到这个下载地址手动下载,只需要在cmd命令行窗口中执行如下命令就可以自动下载DeepSeekR1大模型:ollamarundeepseek-r1:1.5b下载完成后,可以使用以下命令查看模型信息:ollamalist

该命令会列出本地已下载的模型及其状态5.4.2在本地计算机部署DeepSeekR1运行DeepSeekR1可以在cmd命令行窗口中执行如下命令启动DeepSeekR1大模型:ollamarundeepseek-r1:1.5b启动后,模型会进入交互模式,用户可以直接输入问题并获取回答。在交互模式下,可以测试DeepSeekR1的多种功能(如图所示),例如:

智能客服:输入常见问题,如“如何学习人工智能?”。

内容创作:输入“请为我撰写一篇介绍沙县小吃的宣传文案”。

编程辅助:输入“用Python绘制一个柱状图”。

教育辅助:输入“解释牛顿第二定律”。5.4.2在本地计算机部署DeepSeekR1运行DeepSeekR1cmd窗口关闭以后,DeepSeekR1大模型就停止运行了。下次再次使用时,需要再次在cmd窗口中执行如下命令启动DeepSeekR1大模型:ollamarundeepseek-r1:1.5b这种以命令行的方式与大模型进行对话,显然不太友好,因此,下面介绍如何通过浏览器来与大模型进行对话,这里就需要安装OpenWebUI,由于OpenWebUI依赖于Python环境,因此,在安装OpenWebUI之前,需要首先安装Python环境5.4.2在本地计算机部署DeepSeekR1安装Python这里使用的Python版本是3.12.2(该版本于2024年2月6日发布),不要安装最新的版本3.13。请到Python官方网站下载与自己计算机操作系统匹配的安装包,比如,64位Windows操作系统可以下载python-3.12.2-amd64.exe。运行安装包开始安装,在安装过程中,要注意选中“Addpython.exetoPATH”复选框,如图所示,这样可以在安装过程中自动配置PATH环境变量,避免了手动配置的烦琐过程5.4.2在本地计算机部署DeepSeekR1安装Python然后,点击“Customizeinstallation”继续安装,在选择安装路径时,可以自定义安装路径,比如设置为“C:\python312”,并在“AdvancedOptions”下方选中“InstallPython3.12forallusers”(如图所示)5.4.2在本地计算机部署DeepSeekR1安装Python安装完成以后,需要检测是否安装成功。可以打开Windows操作系统的cmd命令界面,然后执行如下命令打开Python解释器:cdC:\python312python如果出现如图所示信息,则说明Python已经安装成功5.4.2在本地计算机部署DeepSeekR1安装MicrosoftVisualC++BuildTools

对于不同的计算机环境,本步骤可能不是必须的,读者可以先跳到第6步继续操作,如果在下面的第6步遇到报错信息说“缺少MicrosoftVisualC++BuildTools”,可以再回到本步骤安装MicrosoftVisualC++BuildTools,然后再执行第6步的安装。可以到如下网址下载MicrosoftVisualC++BuildTools安装包vs_BuildTools.exe:/zh-hans/visual-cpp-build-tools/5.4.2在本地计算机部署DeepSeekR1安装MicrosoftVisualC++BuildTools下载完成以后,双击安装包文件vs_BuildTools.exe进行安装,在弹出的安装界面中(如图所示),在界面左上角的“桌面应用和移动应用”下方,选中“使用C++的桌面开发”,然后,点击界面右下角的“安装”按钮,完成安装5.4.2在本地计算机部署DeepSeekR1使用OpenWebUI增强交互体验只要是支持Ollama的WebUI都可以,如Dify、AnythingLLM等。这里使用比较简单而且也是与Ollama结合比较紧密的OpenWebUI。可以在cmd命令行窗口中执行如下命令安装OpenWebUI(这里使用国内清华大学的安装源镜像,这样可以加快安装速度):pipinstallopen-webui-i/simple注意,如果在下载和安装过程中,出现长时间停滞不动,可以敲击几次回车键。可以执行如下命令启动OpenWebUI服务:open-webuiserve5.4.2在本地计算机部署DeepSeekR1使用OpenWebUI增强交互体验启动后,在浏览器中访问http://localhost:8080/即可进入OpenWebUI界面。如果网页显示“拒绝连接”,无法访问OpenWebUI界面,一般是由于你的计算机开启了Windows防火墙,可以点击“开始”菜单按钮,在弹出的界面中,在顶部的搜索框中输入“安全中心”,打开“Windows安全中心”(如图所示),点击左侧的“防火墙和网络保护”,在右侧的“域网络”中,关闭防火墙5.4.2在本地计算机部署DeepSeekR1使用OpenWebUI增强交互体验OpenWebUI支持中文界面,可以在设置中调整语言,默认是你的Windows系统当前正在使用的语言。首先,需要注册一个管理员账号(如图所示),然后,就可以开始使用了5.4.2在本地计算机部署DeepSeekR1使用OpenWebUI增强交互体验在OpenWebUI界面中,选择已下载的DeepSeekR1模型,即可开始对话测试。如图左所示,可以在对话框中输入“请介绍如何学习人工智能”然后回车,页面就会给出DeepSeekR1的回答结果(如图右所示)5.4.2在本地计算机部署DeepSeekR1每次使用大模型的步骤当我们本次使用完大模型时,只需要关闭各个cmd命令行窗口,大模型就停止运行了。下次要再次使用时,还是按照一样的步骤进行操作:(1)启动大模型。新建一个cmd命令行窗口,在cmd命令行窗口中执行如下命令启动DeepSeekR1大模型:ollamarundeepseek-r1:1.5b(2)启动OpenWebUI。再新建一个cmd命令行窗口,在cmd命令行窗口中执行如下命令启动OpenWebUI服务:open-webuiserve(3)在浏览器中访问大模型。在浏览器中访问http://localhost:8080/即可进入OpenWebUI界面,开始使用大模型5.4.2在本地计算机部署DeepSeekR1取消Ollama的开机自动启动在Windows系统中,右键单击开始菜单按钮,在弹出的菜单中选择“运行”,再在弹出的对话框中输入“msconfig”并回车,进入如图所示系统设置界面5.4.2在本地计算机部署DeepSeekR1取消Ollama的开机自动启动点击“启动”选项卡,在这个选项卡中点击“打开任务管理器”,进入如图所示的任务管理器界面,在界面中,找到“ollama.exe”,把鼠标指针放到“已启动”上面,单击鼠标右键,在弹出的菜单中点击“禁用”,然后关闭任务管理器界面。经过这样设置以后,Ollama以后就不会开机自动启动了,下次在使用DeepSeek时,仍然采用之前介绍的方法,在cmd命令行窗口中执行如下命令启动DeepSeekR1大模型:ollamarundeepseek-r1:1.5b5.5模型微调和本地知识库5.5模型微调和本地知识库使用海量数据进行预训练得到的基础大模型,具备广泛的语言理解和生成能力,但在特定任务上的表现往往不够精准。可以采用两种方案来提升大模型在特定任务上的性能,包括模型微调和本地知识库模型微调本地知识库选择模型微调还是本地知识库5.5.1模型微调预训练模型通常是在大规模通用数据集上进行训练得到的,学习到了丰富的通用特征和模式。模型微调则是将预训练模型应用到特定的任务或领域中,通过在较小规模的特定数据集上进行进一步训练,对模型的参数进行微调,使其能够更好地适应特定任务的需求。模型微调的技术特点主要包括:领域针对性强模型适应性优化模型微调的技术要点包括:高质量的标注数据合理的微调策略5.5.2本地知识库采用本地知识库可以提升大模型针对特定任务的性能,一般采用RAG技术。RAG(Retrieval-AugmentedGeneration),即检索增强生成,是一种结合检索技术和生成模型的技术框架,旨在提升模型生成内容的准确性和相关性。其核心思想是:在生成答案前,先从外部知识库中检索相关信息,再将检索结果与用户输入结合,指导生成模型输出更可靠的回答。简单地说,就是利用已有的文档、内部知识生成向量知识库,在提问的时候结合库的内容一起给大模型,让其回答的更准确,它结合了信息检索和大模型技术。RAG包含三个主要过程:检索、增强和生成(如图所示):5.5.3选择模型微调还是本地知识库模型微调的成本较高,而本地知识库的成本相对较低。选择模型微调还是本地知识库,取决于多个因素,以下从数据特性、应用场景、性能需求等方面进行分析:①数据量②数据更新频率数据特性①响应时间②准确性要求性能需求①计算资源②

存储资源资源限制①复杂任务与简单任务②个性化需求应用场景谢谢观看!林子雨副教授厦门大学附录A:主讲教师林子雨简介单位:厦门大学计算机科学与技术系E-mail:ziyulin@个人网页:/post/linziyu数据库实验室网站:主讲教师:林子雨林子雨,男,1978年出生,博士(毕业于北京大学),全国高校知名大数据教师,入选“2021年高校计算机专业优秀教师奖励计划”。现为厦门大学计算机科学与技术系副教授,厦门大学信息学院实验教学中心主任,曾任厦门大学信息科学与技术学院院长助理、晋江市发展和改革局副局长。中国计算机学会数据库专业委员会执行委员,中国计算机学会信息系统专业委员会执行委员。国内高校首个“数字教师”提出者和建设者,厦门大学数据库实验室负责人,厦门大学云计算与大数据研究中心主要建设者和骨干成员,2013年度、2017年度、2020年度和2023年度厦门大学教学类奖教金获得者,荣获2024年福建省高等教育教学成果奖特等奖(个人排名第七)、2022年福建省高等教育教学成果奖特等奖(个人排名第一)、2018年福建省高等教育教学成果奖二等奖(个人排名第一)、2018年国家精品在线开放课程、2021年国家级线上一流本科课程、2020年国家级线上一流本科课程。主要研究方向为数据库、数据仓库、数据挖掘、大数据、云计算和物联网,并以第一作者身份在《软件学报》《计算机学报》和《计算机研究与发展》等国家重点期刊以及国际学术会议上发表多篇学术论文。作为项目负责人主持的科研项目包括1项国家自然科学青年基金项目(No.61303004)、1项福建省自然科学青年基金项目(No.2013J05099)和1项中央高校基本科研业务费项目(No.2011121049),主持的教改课题包括1项2016年福建省教改课题、1项2016年教育部产学协作育人项目、1项2024年教育部产学协作育人项目。编著出版了《大数据技术原理与应用》等18本大数据与人工智能系列教材,被国内1000多所高校采用;建设了国内高校首个大数据课程公共服务平台,为教师教学和学生学习大数据课程提供全方位、一站式服务,年访问量超过400万次,累计访问量超过2800万次。大数据系列MOOC课程入选“2023年教育部国家智慧教育公共服务平台应用典型案例”。附录B:大数据学习路线图大数据学习路线图访问地址:/post/10164/附录C:林子雨大数据系列教材了解全部教材信息:/post/bigdatabook/附录D:《人工智能通识教程》林子雨

主编《人工智能通识教程》人民邮电出版社ISBN:978-7-04-064880-52025年6月第1版,定价:39.9元

教材官网:/post/ai/本书详细阐述了培养具有人工智能(AI)素养的综合型人才所需要的相关知识储备。作为通识类课程教材,本书在确定知识布局时,紧紧围绕通识教育核心理念,系统介绍人工智能相关知识,努力培养学生的AI思维和AI能力。全书共9章,内容包括信息与计算机基础、人工智能概述、人工智能与其他新兴技术的关系、大模型:人工智能的前沿、智能体、具身智能、AIGC应用与实践、AI智能办公、人工智能伦理等。本书以“零代码”学习人工智能为原则,使用AIGC工具解决学习、工作、生活中的各种问题。书中包含了大量生动、有趣、实用的实战案例,可以让读者切身感受人工智能的强大功能,培养读者使用AI工具解决实际问题的能力。厦门大学数据库实验室和金山WPS校企合作教材附录E:《数字素养通识教程》林子雨编著《数字素养通识教程——大数据与人工智能时代的计算机通识教育》人民邮电出版社ISBN:978-7-115-65946-02025年1月第1版,定价:59.8元

教材官网:/post/digital-literacy/15年计算机教学生涯感悟升华,15本计算机畅销教材知识凝练数字时代的大学计算机公共课教材,重构大学计算机公共课知识体系深刻变革传统大学计算机通识教育,培养学生计算思维、数据思维和AI思维附录F:《大数据导论(通识课版,第2版)》教材高等教育出版社

2024年7月第2版ISBN:978-7-04-062466-3定价:39.50元

教材官方网站:/post/bigdataintroduction2/0503020104引导学生步入大数据时代,积极投身大数据的变革浪潮之中了解大数据概念,培养大数据思维,养成数据安全意识认识大数据伦理,努力使自己的行为符合大数据伦理规范要求熟悉大数据应用,探寻大数据与自己专业的应用结合点激发学生基于大数据的创新创业热情开设全校公共选修课的优质教材,本课程旨在实现以下几个培养目标:附录G:《大数据与人工智能导论(通识课版)》《大数据与人工智能导论(通识课版)》版次:2025年1月第1版林子雨

编著,人民邮电出版社

ISBN:978-7-115-65696-4定价:59.8元

教材官网:/post/bigdata-ai-introduction/本书详细阐述了培养具有数字素养的综合型人才所需要的相关知识储备。作为通识类课程教材,本书在确定知识布局时,紧紧围绕通识教育核心理念,系统介绍大数据、云计算、物联网、人工智能、区块链、元宇宙等技术的相关知识,努力培养学生的数字素养。全书共9章,内容包括大数据概述、大数据技术、大数据应用、大数据基础知识、人工智能、大模型:人工智能的前沿、AIGC应用与实践、新兴数字技术、新兴数字技术的伦理问题。为了避免陷入空洞的理论介绍,本书在很多章节都融入了丰富的案例,这些案例就发生在我们生活的数字时代,很具有代表性和说服力,能够让学生直观感受相应理论的具体内涵。附录H:《大数据导论(第2版)》教材林子雨编著《大数据导论(第2版)》人民邮电出版社

ISBN:978-7-115-64185-4定价:59.80元2024年7月教材官方网站:/post/bigdata-introduction2/开设大数据专业导论课的优质教材,本书详细阐述了培养复合型大数据专业人才所需要的大数据相关知识。全书共10章,内容包括:大数据概述大数据与其他新兴技术的关系大数据基础知识大数据应用大数据硬件环境数据采集与预处理数据存储与管理数据处理与分析数据可视化大数据分析综合案例在大数据基础知识部分,本书详细介绍了与培养学生的数据素养相关的知识,包括大数据安全、大数据思维、大数据伦理、数据共享、数据开放和大数据交易。附录I:《大数据技术原理与应用(第4版)》教材《大数据技术原理与应用——概念、存储、处理、分析与应用(第4版)》林子雨编著,人民邮电出版社

ISBN:978-7-115-64181-6定价:65元2024年8月教材官方网站:/post/bigdata4国内高校第一本系统介绍大数据知识的专业教材,本书系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。全书共14章,内容包含:本书在Hadoop、HDFS、HBase、MapReduce、Hive、Spark和Flink等相关章安排了入门级的实验,以便读者能更好地学习和掌握大数据的关键技术。大数据概述大数据处理架构Hadoop分布式文件系统HDFS分布式数据库HBaseNoSQL数据库云数据库MapReduceHadoop再探讨数据仓库HiveSpark流计算Flink图计算大数据应用附录J:《大数据基础编程、实验和案例教程(第3版)》与《大数据技术原理与应用(第4版)》教材配套的唯一指定实验指导书林子雨编著,清华大学出版社

ISBN:978-7-302-66922-7

定价:69元

2024年8月第3版《大数据基础编程、实验和案例教程(第3版)》深入浅出,去粗取精,丰富的代码实例帮助快速掌握大数据基础编程方法步步引导,循序渐进,详尽的安装指南为顺利搭建大数据实验环境铺平道路0102精心设计,巧妙融合,八套大数据实验题目促进理论与编程知识的消化和吸收03结合理论,联系实际,大数据课程综合实验案例精彩呈现大数据分析全流程04附录K:《数据采集与预处理(第2版)》详细阐述了大数据领域数据采集与预处理的相关理论和技术林子雨编著,人民邮电出版社2025年1月

978-7-115-65728-2

定价:69.80元教材官网:/post/data-collection2/全书共8章,内容包括:概述大数据实验环境搭建网络数据采集分布式消息系统Kafka日志采集系统Flume数据仓库中的数据集成ETL工具Kettle使用pandas进行数据清洗本书在网络数据采集、Kafka、Flume、Kettle、pandas等重要章节安排了丰富的实践操作,以便读者更好地学习和掌握数据采集与预处理的关键技术。附录L:《Python程序设计基础教程(微课版)》教材:林子雨,赵江声,陶继平.《Python程序设计基础教程(微课版)》人民邮电出版社,2022年2月.教材官网(获取讲义PPT、代码等):

/post/python/

实验手册:林子雨,郑海山.《Python程序设计实验指导与习题解答》.人民邮电出版社,2022年4月.实验手册官网(获取代码等):/post/python-experiment/附录M:《Python程序设计基础(通识课版)》教材:林子雨.《Python程序设计基础(通识课版)》人民邮电出版社,2025年2月.教材官网(获取讲义PPT、代码等):

/post/python-general/

教材ISBN:978-7-115-65678-0定价:59.8元本书详细介绍了获得Python基础编程能力所需要掌握的各方面技术。全书共11章,内容包括Python语言概述、基础语法知识、程序控制结构、序列、函数、模块、异常处理、文件和数据库操作、常用的标准库和第三方库、基于Matplotlib的数据可视化、网络爬虫等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Python编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、源代码、软件、数据集等。附录N:《Python数据分析、挖掘与可视化》教材:林子雨

编著《Python数据分析、挖掘与可视化》人民邮电出版社,2025年5月.教材官网(获取讲义PPT、代码等):/post/python-analysis/教材ISBN:978-7-115-66088-6定价:59.8元数据分析能够帮助人们深入洞察数据的内在规律和趋势,提取有价值的信息,为决策提供科学依据。在当今信息爆炸的时代,数据分析已成为各行各业不可或缺的技能。本书通过丰富的案例帮助读者快速掌握Python数据分析的核心技能,提高数据处理和分析的能力,从而更好地应对学习和工作中的挑战。全书共10章,内容包括Python语言概述、基础语法知识、程序控制结构、序列、函数、文件和数据库操作、数据分析基础工具NumPy、基于Matplotlib的数据可视化、基于pandas的数据预处理和分析、基于sklearn的机器学习。附录O:《Spark编程基础(Scala版,第2版)》《Spark编程基础(Scala版,第2版)》林子雨,赖永炫,陶继平

编著,人民邮电出版社

ISBN:978-7-115-59501-0

教材官网:/post/spark2/本书以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共9章,内容包括:大数据技术概述Scala语言基础Spark的设计与运行原理Spark环境搭建和使用方法RDD编程SparkSQLSparkStreamingSparkMLlib本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。披荆斩棘在大数据丛林中开辟学习捷径填沟削坎为快速学习Spark技术铺平道路深入浅出有效降低Spark技术学习门槛资源全面构建全方位一站式在线服务体系附录P:《Spark编程基础(Python版,第2版)》《Spark编程基础》(Python版,第2版)林子雨,郑海山,赖永炫

编著,人民邮电出版社

ISBN:978-7-115-64403-9

出版发行,教材官网:/post/spark-python2/本书以Python作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共9章,内容包括:大数据技术概述Spark的设计与运行原理大数据实验环境搭建Spark环境搭建和使用方法RDD编程SparkSQLSparkStreamingSparkMLlib本书在非理论的章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。披荆斩棘在大数据丛林中开辟学习捷径填沟削坎为快速学习Spark技术铺平道路深入浅出有效降低Spark技术学习门槛资源全面构建全方位一站式在线服务体系SparkMLlib附录Q:《数据库系统原理(微课版)》《数据库系统原理(微课

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论